Kicx161
Участник
Tesla планирует повысить детализацию Tesla Vision
Несколько недель назад на автомобиль прилетело очередное обновление, в котором сухо упоминалось, что благодаря технологии Tesla Vision фронтальные подушки безопасности смогут начать раскрываться чуть раньше столкновения. Мне это показалось любопытным, после чего я нашел опубликованную весной прошлого года патентную заявку, изучил ее и сделал интересные для себя выводы о принципе работы Tesla Vision и пределах доверия к этой технологии.
И вот менее месяца назад была опубликована новая патентная заявка компании Tesla № 20250282344, в которой описывается крайне интересное улучшение технологии Tesla Vision, а именно повышение детализации Tesla Vision.
Как сейчас работает Tesla Vision
Видеопотоки со всех камер выравниваются по времени, собираются в единую 3D-сцену и разбиваются на воксели («voxel» — минимальная трёхмерная «ячейка» пространства; средний размер около 30 см, который в случае необходимости локально уменьшается до примерно 10 см).
Для каждого вокселя сеть оценивает, занят он или свободен (с одновременным учетом вероятности), и — что ещё важнее — двигается ли в нём «масса» и куда. На выходе получается 3D-сцена занятости со скоростями, которую остальной софт видит как «запрашиваемый» датасет (автомобиль может опрашивать его миллисекунда за миллисекундой):
Подробнее описано тут. При этом водитель видит не такую 3D-сцену занятости, для него она сглаживается и выводится на экране. Важно отметить, что при этом происходит существенное снижение точности.
Как будет работать Tesla Vision
В недавно опубликованной патентной заявке № 20250282344 детально раскрывается, за счет чего планируется существенным образом повысить детализацию Tesla Vision.
Ключевая идея заключается в том, чтобы перейти от «грубой» 3D-сцены занятости к более детальному описанию окружающего мира с помощью SDF (signed distance field, поле расстояний со знаком), причём опираясь только на видеопотоки с камер. Если сказать кратко, то теперь нейросеть для каждого вокселя прогнозирует не просто факт «занят/свободен», а точное расстояние до ближайшей поверхности и знак, указывающий, внутри эта поверхность или снаружи. Эти значения затем переводятся в слои-изображения и «укладываются стопкой» для сборки плотной 3D-сцены вокруг авто.
Что такое SDF простыми словами
Представьте, что пространство разбито на воксели, как на привычной «сцене занятости» (см. изображение выше), но в каждом таком «кирпичике» хранится число. Положительное значение — воксель ещё в воздухе (до ближайшей поверхности есть запас), отрицательное — мы уже «внутри» поверхности (её нужно рисовать). На рендере это делают просто: положительные воксели показывают прозрачными, отрицательные — закрашенными. Далее формируют тонкий слой на заданной высоте (например, от 0 до 1 дюйма над дорогой), затем следующий (1–2 дюйма), и так до нужной высоты. Складываем 2D-слои и получаем плотную 3D-картину. Плюс, при необходимости применяют сглаживание/аппроксимацию поверхностей, чтобы убрать «лесенки» от сетки. Важно: SDF хранит расстояние до ближайшей поверхности, а не до автомобиля; расстояние до него получают отдельным лучевым проходом/локализацией поверх этой сетки.
В качестве примера, как SDF кодирует форму непрерывными значениями для последующего рендеринга, SDF можно привести изображение из заявки:
На нем объект задан в виде круга, а каждая ячейка хранит численное расстояние до ближайшей поверхности: положительные значения — снаружи объекта, отрицательные — внутри.
Как будет выглядеть Tesla Vision
В качестве наглядного примера в заявке приводится одна и та же сцена, но собранная тремя способами.
1) Альтернативный способ в виде облака точек, полученного, например, радаром или любым датчиком глубины и скормленные рендеру без осмысленной пост-обработки. Получается шумно, прожорливо по памяти и трудно воспринимаемо для планировщика движения:
2) Текущий способ реализации Tesla Vision за счет 3D-сцены занятости на основе только вокселей. Получается уже лучше: есть свободные/занятые ячейки, но без «контурной тонкости». Мелкие детали и изгибы теряются, объекты выглядят «ступенчатыми»:
3) Новый способ реализации Tesla Vision за счет 3D-сцены занятости на основе вокселей с добавлением SDF. За счёт непрерывных расстояний до поверхностей рендер получается заметно богаче на мелких нюансах формы. Это помогает машине «чувствовать» тонкие столбики, острые кромки, кривизну бортов, а значит — увереннее маневрировать в тесных местах (собственно, под это и заточены новые функции ассистированной парковки):
Очевидно, что третий способ существенным образом повышает детализацию Tesla Vision: теперь это не 3D-сцена занятости из крупных кубиков, которая сглаживается для демонстрации водителю, а изначально намного более точная 3D-сцена за счет применения SDF. Отдельно заявлено распознавание «окрашенных» вокселей на дороге: система будет различать линии/знаки, их форму и даже цвет (например, красный бордюр) и учитывает это при выборе парковочного места.