TUN3D: трехмерное понимание сцен по видео с вашего телефона

Меня зовут Максим Колодяжный, и я занимаюсь исследованиями на стыке 3D‑детекции и реконструкции сцен в команде «Пространственный интеллект» AIRI.

Представьте: вы сняли на обычный смартфон несколько видео комнаты «с руки», загрузили их в софт, а на выходе получили не только 3D‑коробки вокруг всех стульев/столов/кроватей, но и точную 3D‑модель стен, пола и потолка. При этом система не просит у вас данные с датчика глубины (LiDAR) и даже не требует точных данных о положении камеры в каждый момент времени.

Звучит как магия, не так ли? Однако, именно эту задачу и решает TUN3D ^[1] — наш новый метод, который стал state‑of‑the‑art решением в комплексном понимании помещений, разработанный вместе с коллегами из Института ИИ МГУ, ВШЭ и Института механики. Статью ^[2] с описанием метода приняли на престижную международную конференцию по робототехнике ICRA 2026!

Хотел бы подробнее рассказать здесь о том, как устроен новый метод.

В чём проблема?

Задача «понимания» внутреннего пространства комнаты (indoor scene understanding) — это фундамент для робототехники, AR/VR, умного дома и инспекции помещений. На практике часто нужно не плотное 3D‑месиво из миллионов полигонов, а структурированное, семантически обогащенное, компактное описание, которое включает

Layout (Планировку) — где именно проходят стены, пол, потолок;
3D‑детекцию объектов — что в комнате стоит, где расположено и какого размера (кровать, диван, холодильник и так далее).

Существующие методы справляются с этими задачами по отдельности или вместе, но упираются в два больших ограничения:

Зависимость от облаков точек (point cloud). Большинство SOTA‑методов ждут на входе уже готовое, часто полученное с дорогого лидара и подвергнутое трудоемкой многовидовой реконструкции облако точек. Обычная камера смартфона или архивное видео такой информации не дают.
Компромисс между точностью и скоростью. Существующие совместные модели либо очень медленные (особенно LLM‑подобные, генерирующие сцену как текст или код), либо сильно проигрывают аналогам в качестве.

TUN3D — это первый метод, который решает задачи сразу и детекции объектов, и оценки планировки, работая напрямую с изображениями и при этом не требуя ни точных положений камер (extrinsics), ни данных о глубине при обучении ^[3] и инференсе.

Архитектура TUN3D: быстро, просто, эффективно

Модель построена по классической схеме Backbone‑Neck‑Heads, но с правильно подобранными и улучшенными компонентами.

Архитектура TUN3D. Модель состоит из трёх компонент: A — реконструкция в облако точек, B — трёхмерный детектор, построенный на разреженных свёртках, C, D — две головы для детекции объектов и вычисления положения стен.

Входные данные

Модель может работать в трёх режимах, что делает её универсальной:

Облако точек (классика, для максимального качества).
Изображения + известные позы камер (например, данные из ARKit).
Только изображения, без поз (наш главный кейс — видео с обычной камеры).

Для режимов 2 и 3 используется внешний модуль DUSt3R. Эта модель по набору изображений строит и глубину, и сами позы камер. На выходе получается то самое облако точек, которое дальше ест TUN3D.

TUN3D: трехмерное понимание сцен по видео с вашего телефона - 2

Основная часть системы:

Backbone. Лёгкая и быстрая 3D sparse convolutional сеть (оптимизированная версия из TR3D). Она превращает вокселизированное облако точек в иерархические 3D‑признаки.
Neck. Агрегирует признаки с разных уровней, используя generative sparse convolution, чтобы не терять информацию об объектах на границах и заполнять пустоты внутри объектов.
Heads. Две специализированные «головы» работают параллельно:
- Detection Head предсказывает 3D‑баундинг боксы и классы объектов. Взята из TR3D и доказала свою эффективность.
- Layout Head предсказывает параметры стен.

Параметризация стен «2×2D + высота»

Как лучше описать стену для нейросети?

Идея здесь в следующем: стены, как и машины на дороге, нельзя ставить друг на друга. Их геометрия эффективно описывается с Bird’s‑Eye‑View (BEV) представления.

Его реализация (2×2D + высота, 5 параметров) состоит из следующих шагов:

Проекция. 3D‑признаки на выходе модели усредняются на плоскость пола.
Добавление контекста высоты. Чтобы сеть не забыла, что стены высокие, мы отдельно считаем квантили высоты (z‑координаты) всех точек сцены и кодируем их маленьким MLP в вектор глобальной статистики высоты.
Конкатенация. Этот вектор добавляется к каждому спроецированному 2D‑признаку.
Предсказание. Для каждой потенциальной стены модель учится предсказывать всего 5 чисел: 2D‑смещения двух нижних углов стены на плоскости пола и её высоту. Всё! Верхние углы получаются автоматическим поднятием нижних.

Эта параметризация оказалась не только самой компактной, но и самой точной, давая прирост в качестве.

Эксперименты

Мы протестировали нашу модель на всех ключевых датасетах: ScanNet, S3DIS, ARKitScenes, Structured3D для каждого режима.

1. Облака точек (верхний предел качества).
TUN3D устанавливает новый SOTA как в задаче планировки, так и в детекции.

Layout F1: 66.6 на ScanNet (превышает Omni‑PQ на +5.8 и PQ‑Transformer на +12.2).
Detection mAP@0.25: 74.4 на S3DIS, что сравнимо с лучшими специализированными детекторами, при том что наша модель параллельно строит и планировку.

2. Изображения с известными позами.
Здесь TUN3D (в связке с DUSt3R) тоже показывает хорошие числа, особенно среди методов, не использующих глубину на обучении. Мы первые, кто вообще замерил качество оценки планировки в этом сценарии на реальных данных.

3. Просто изображения, без поз.
Предшественников, которые делают и то, и другое на реальных данных, просто нет. TUN3D задаёт новую постановку в этой области. Удивительно, но качество планировки в этом режиме (46.5 F1) оказалось выше, чем у базовой модели PQ‑Transformer, которой позы дали (44.1 F1)! Это показывает, что наша архитектура и параметризация стен более устойчивы к шуму во входных данных.

Скорость — ещё одно наше преимущество: TUN3D не только точный, но и быстрый! Например, у нас выходит ~49 мс на сцену из ScanNet против 217 мс у PQ‑Transformer и 7935 мс у тяжеловесного SpatialLM. Такая эффективность достигается за счёт лёгкого sparse‑conv бэкбона и простых голов.

Выводы и перспективы

TUN3D — это значительный шаг к практическому, «полевому» пониманию 3D‑сцен. Если кратко подытоживать нашу работу, можно сказать следующее:

Создана быстрая и точная модель для совместной оценки планировки и 3D‑детекции.
Метод очень сильно снижает требования к входным данным, работая с обычными изображениями без поз и глубины, открывая дорогу для применения на массовых устройствах.
Предложена эффективная BEV‑параметризация стен и архитектура, балансирующая скорость и качество.

Работа открывает множество возможностей: от мгновенного создания цифровых двойников помещений силами любого смартфона до новых интерактивных приложений в AR и для роботов. Код лежит в открытом доступе ^[4], сообщество может попробовать эту технологию в деле.

Хотел бы поблагодарить моих коллег и соавторов: Никиту Дроздова, Булата Габдуллина, Алексея Захарова, Анну Воронцову, Данилу Руховича и Антона Конушина.

Рад буду ответить на вопросы!

Автор: maksim_ko

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31062

URLs in this post:

[1] TUN3D: https://huggingface.co/papers/2509.21388

[2] Статью: https://arxiv.org/pdf/2509.21388

[3] обучении: http://www.braintools.ru/article/5125

[4] в открытом доступе: https://github.com/col14m/TUN3D

[5] Источник: https://habr.com/ru/companies/airi/articles/993306/?utm_source=habrahabr&utm_medium=rss&utm_campaign=993306

Нажмите здесь для печати.