Что было самого интересного про компьютерное зрение на Я Железо 2025

Что с точки зрения ^[1] CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?

Закаливание детектора автомобиля радарными точками

ссылка ^[2]

Метрики. С – камера, L – лидар, R – радар

Доклад естественно без погружения в детали, но всё равно очень любопытный. Несколько моментов, на которые стоит обратить внимание ^[3]:

работают в рамках BEV-Fusion с собственными доработками;
подчёркивают важность возможности безопасно включать и отключать разные каналы (лидар, радар, камера) — критично для отказоустойчивости;
радарный детектор слабее лидарного: в первую очередь данные сильно разреженные и шумные;
метрики только по радару не приводились — оценивали в связке с камерами;
радар выступает скорее как резервный источник, если лидары по какой-то причине стали недоступны;
наибольший прирост метрик дали агрегация радарных точек из прошлых кадров и добавление индекса конкретного радара как дополнительного признака;
предложили собственную метрику, более «толерантную» к ошибкам локализации на дальних и перекрытых объектах (например, ошибка ^[4] 10 м на 100 м дистанции не критична для запасного контура CV).

Год назад я делал для коллег обзор методов сенсорного слияния и мы тоже выделяли BEV-Fusion. Идея хоть и не новая, но до сих пор актуальна — именно потому, что построение BEV-карты в этом подходе не завязано жёстко на лидар. Каждый сенсор независимо проецируется на вид сверху с помощью матрицы проекции. Поэтому можно, условно, отключить лидары и всё равно получить BEV-представление сцены по радарам и камерам.

В теории, есть и минусы:

гипотеза «земля плоская»: камерные признаки сверху могут не совпадать с лидарными в местах сложного рельефа – например человек, стоящий на возвышенности, спроецируется дальше своего реального положения;
углы установки сенсоров должны быть стабильны относительно земли, иначе проекции будут «плыть» — особенно это заметно будет для объектов на больших дистанциях при раскачивании беспилотника.

От идеи до реальности: как мы создаём лидары

ссылка ^[5]

Обзорный доклад про особенности лидаров автономного транспорта. Я, например, наконец-то запомнил, что:

круговой лидар – чаще всего твердотельные излучатели на 950 нм (число излучателей = числу лучей или колец в облаке точек);
дальнобойные секторальные лидары (Robosense M1) обычно строятся на одном мощном излучателе 1550 нм, который зеркала разбрасывают по вертикали и горизонтали.

Интересно, что 1550-нм лидары могут быть в разы мощнее 950-нм в основном из-за безопасности для зрения.

Ещё один любопытный момент — работа днём и ночью:

длину волны больше 1550 нм не используют, чтобы приёмник не путал сигнал с естественным тепловым излучением, например людей;
днём возникает конкуренция лотраженного лидарного луча с отражённым солнечным светом (и чем ближе длина волны к видимому диапазону, тем сильнее).

Ближе к видимому свету - много солнца на фоне, дальше - много света от теплых объектов типа людей — Ближе к видимому свету – много солнца на фоне, дальше – много света от теплых объектов типа людей

Ночью лидарное облако точек в отсутствии посторонних излучений должно быть чище, а метрики детекторов — выше. Но на датасете Nuscenes модель BEV-Fusion, например, показывает ночную метрику ниже дневной! Возможно, потому что камера ночью хуже детектит (C+L).

Авторы BEV-Fusion этот парадокс ^[6] не комментируют. Вероятное объяснение — в датасете NuScenes: ночных кадров мало, разметка сложнее и шумнее, что снижает обобщаемость моделей.

Переходы. Светофоры. Роботы

ссылка ^[7]

Доклад о том, как тяжело работать с редкими примерами и «длинным хвостом» распределения.

Часть проблем решается «докруткой» системы и дообучением: добавили кадры с перекрытым светофором – смогли различить негорящую лампу от закрытой проезжающим автомобилем, признак среднего цвета оказался лишним – упростили модель.
Другая часть (например, предсказание намерений автомобилистов на переходе) требует уже не эвристик, а сквозного ML-подхода, где распознавание и планирование объединены в одной модели. Яндекс только начал работу в этом направлении. На мой взгляд, это самая интересная часть — внедрение универсального подхода, заменяющего набор эвристик на обучение ^[8] на данных, потому что первые со временем кончаются или становятся слишком сложными, а данные не закончатся, они будут приходить постоянно в процессе всей эксплуатации.

Обзор системы очистки сенсора автономного ТС

ссылка ^[9]

Про очистку сенсоров беспилотных грузовиков (спойлер: воздушно-капельные форсунки). Несколько моментов:

лидары чистят по частям – сначала одну половинку, потом другую, чтобы не терять все точки сразу;
можно чистить не по расписанию, а по факту загрязнения — это экономит омывайку;
для камер собирают датасет с «грязными/чистыми» примерами, для лидаров — тоже, но всегда сверяют с камерой, иначе сложно понять источник пропажи точек.

Как Embedded снижает стоимость нейронных сетей?

ссылка ^[10]

Ускорение выполнения модели, вертикальная шкала - логарифмическая — Ускорение выполнения модели, вертикальная шкала – логарифмическая

Вторая часть доклада — про оптимизацию кода под железо. Приводили наглядный пример кода, удвоился удвоился в размере, будучи написанным более эффективным под конкретную платформу. Такой код, как утверждают авторы, может ускорить даже CUDA-инференс на порядки! Обычно те, кто обучает модели, так глубоко в инференс не копают, но в идеале к этому стоит стремиться.

Дизайн автономного грузовика

ссылка ^[11]

Про дизайн обтекателей сенсорного набора автономного грузовика. Эти кожухи должны быть и функциональными, и эстетичными.

Любопытный момент: перед выбором места для логотипа сделали «карту загрязнения» кузова. В зонах, которые сильнее всего пачкаются во время езды, логотип ставить явно не стоит.

Автор: andrybin

Источник ^[12]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20027

URLs in this post:

[1] зрения: http://www.braintools.ru/article/6238

[2] ссылка: https://youtu.be/c1IBvEHwBmo?si=N9gz1YTK_7ticKfg

[3] внимание: http://www.braintools.ru/article/7595

[4] ошибка: http://www.braintools.ru/article/4192

[5] ссылка: https://youtu.be/p3eiLQ5diAY

[6] парадокс: http://www.braintools.ru/article/8221

[7] ссылка: https://youtu.be/j5o2JhIqt0o

[8] обучение: http://www.braintools.ru/article/5125

[9] ссылка: https://youtu.be/Q5DXhrkEodA

[10] ссылка: https://youtu.be/1PWVZ9NeWUY

[11] ссылка: https://youtu.be/yPfM7YcAN6k

[12] Источник: https://habr.com/ru/articles/951310/?utm_campaign=951310&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.