- BrainTools - https://www.braintools.ru -
Что с точки зрения [1] CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?
ссылка [2]
Доклад естественно без погружения в детали, но всё равно очень любопытный. Несколько моментов, на которые стоит обратить внимание [3]:
работают в рамках BEV-Fusion с собственными доработками;
подчёркивают важность возможности безопасно включать и отключать разные каналы (лидар, радар, камера) — критично для отказоустойчивости;
радарный детектор слабее лидарного: в первую очередь данные сильно разреженные и шумные;
метрики только по радару не приводились — оценивали в связке с камерами;
радар выступает скорее как резервный источник, если лидары по какой-то причине стали недоступны;
наибольший прирост метрик дали агрегация радарных точек из прошлых кадров и добавление индекса конкретного радара как дополнительного признака;
предложили собственную метрику, более «толерантную» к ошибкам локализации на дальних и перекрытых объектах (например, ошибка [4] 10 м на 100 м дистанции не критична для запасного контура CV).
Год назад я делал для коллег обзор методов сенсорного слияния и мы тоже выделяли BEV-Fusion. Идея хоть и не новая, но до сих пор актуальна — именно потому, что построение BEV-карты в этом подходе не завязано жёстко на лидар. Каждый сенсор независимо проецируется на вид сверху с помощью матрицы проекции. Поэтому можно, условно, отключить лидары и всё равно получить BEV-представление сцены по радарам и камерам.
В теории, есть и минусы:
гипотеза «земля плоская»: камерные признаки сверху могут не совпадать с лидарными в местах сложного рельефа – например человек, стоящий на возвышенности, спроецируется дальше своего реального положения;
углы установки сенсоров должны быть стабильны относительно земли, иначе проекции будут «плыть» — особенно это заметно будет для объектов на больших дистанциях при раскачивании беспилотника.
ссылка [5]
Обзорный доклад про особенности лидаров автономного транспорта. Я, например, наконец-то запомнил, что:
круговой лидар – чаще всего твердотельные излучатели на 950 нм (число излучателей = числу лучей или колец в облаке точек);
дальнобойные секторальные лидары (Robosense M1) обычно строятся на одном мощном излучателе 1550 нм, который зеркала разбрасывают по вертикали и горизонтали.
Интересно, что 1550-нм лидары могут быть в разы мощнее 950-нм в основном из-за безопасности для зрения.
Ещё один любопытный момент — работа днём и ночью:
длину волны больше 1550 нм не используют, чтобы приёмник не путал сигнал с естественным тепловым излучением, например людей;
днём возникает конкуренция лотраженного лидарного луча с отражённым солнечным светом (и чем ближе длина волны к видимому диапазону, тем сильнее).
Ночью лидарное облако точек в отсутствии посторонних излучений должно быть чище, а метрики детекторов — выше. Но на датасете Nuscenes модель BEV-Fusion, например, показывает ночную метрику ниже дневной! Возможно, потому что камера ночью хуже детектит (C+L).
Авторы BEV-Fusion этот парадокс [6] не комментируют. Вероятное объяснение — в датасете NuScenes: ночных кадров мало, разметка сложнее и шумнее, что снижает обобщаемость моделей.
ссылка [7]
Доклад о том, как тяжело работать с редкими примерами и «длинным хвостом» распределения.
Часть проблем решается «докруткой» системы и дообучением: добавили кадры с перекрытым светофором – смогли различить негорящую лампу от закрытой проезжающим автомобилем, признак среднего цвета оказался лишним – упростили модель.
Другая часть (например, предсказание намерений автомобилистов на переходе) требует уже не эвристик, а сквозного ML-подхода, где распознавание и планирование объединены в одной модели. Яндекс только начал работу в этом направлении. На мой взгляд, это самая интересная часть — внедрение универсального подхода, заменяющего набор эвристик на обучение [8] на данных, потому что первые со временем кончаются или становятся слишком сложными, а данные не закончатся, они будут приходить постоянно в процессе всей эксплуатации.
ссылка [9]
Про очистку сенсоров беспилотных грузовиков (спойлер: воздушно-капельные форсунки). Несколько моментов:
лидары чистят по частям – сначала одну половинку, потом другую, чтобы не терять все точки сразу;
можно чистить не по расписанию, а по факту загрязнения — это экономит омывайку;
для камер собирают датасет с «грязными/чистыми» примерами, для лидаров — тоже, но всегда сверяют с камерой, иначе сложно понять источник пропажи точек.
ссылка [10]
Вторая часть доклада — про оптимизацию кода под железо. Приводили наглядный пример кода, удвоился удвоился в размере, будучи написанным более эффективным под конкретную платформу. Такой код, как утверждают авторы, может ускорить даже CUDA-инференс на порядки! Обычно те, кто обучает модели, так глубоко в инференс не копают, но в идеале к этому стоит стремиться.
ссылка [11]
Про дизайн обтекателей сенсорного набора автономного грузовика. Эти кожухи должны быть и функциональными, и эстетичными.
Любопытный момент: перед выбором места для логотипа сделали «карту загрязнения» кузова. В зонах, которые сильнее всего пачкаются во время езды, логотип ставить явно не стоит.
Автор: andrybin
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20027
URLs in this post:
[1] зрения: http://www.braintools.ru/article/6238
[2] ссылка: https://youtu.be/c1IBvEHwBmo?si=N9gz1YTK_7ticKfg
[3] внимание: http://www.braintools.ru/article/7595
[4] ошибка: http://www.braintools.ru/article/4192
[5] ссылка: https://youtu.be/p3eiLQ5diAY
[6] парадокс: http://www.braintools.ru/article/8221
[7] ссылка: https://youtu.be/j5o2JhIqt0o
[8] обучение: http://www.braintools.ru/article/5125
[9] ссылка: https://youtu.be/Q5DXhrkEodA
[10] ссылка: https://youtu.be/1PWVZ9NeWUY
[11] ссылка: https://youtu.be/yPfM7YcAN6k
[12] Источник: https://habr.com/ru/articles/951310/?utm_campaign=951310&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.