Меня зовут Максим Колодяжный, и я занимаюсь исследованиями на стыке 3D‑детекции и реконструкции сцен в команде «Пространственный интеллект» AIRI.
Представьте: вы сняли на обычный смартфон несколько видео комнаты «с руки», загрузили их в софт, а на выходе получили не только 3D‑коробки вокруг всех стульев/столов/кроватей, но и точную 3D‑модель стен, пола и потолка. При этом система не просит у вас данные с датчика глубины (LiDAR) и даже не требует точных данных о положении камеры в каждый момент времени.
Звучит как магия, не так ли? Однако, именно эту задачу и решает TUN3D — наш новый метод, который стал state‑of‑the‑art решением в комплексном понимании помещений, разработанный вместе с коллегами из Института ИИ МГУ, ВШЭ и Института механики. Статью с описанием метода приняли на престижную международную конференцию по робототехнике ICRA 2026!
Хотел бы подробнее рассказать здесь о том, как устроен новый метод.
В чём проблема?
Задача «понимания» внутреннего пространства комнаты (indoor scene understanding) — это фундамент для робототехники, AR/VR, умного дома и инспекции помещений. На практике часто нужно не плотное 3D‑месиво из миллионов полигонов, а структурированное, семантически обогащенное, компактное описание, которое включает
-
Layout (Планировку) — где именно проходят стены, пол, потолок;
-
3D‑детекцию объектов — что в комнате стоит, где расположено и какого размера (кровать, диван, холодильник и так далее).
Существующие методы справляются с этими задачами по отдельности или вместе, но упираются в два больших ограничения:
-
Зависимость от облаков точек (point cloud). Большинство SOTA‑методов ждут на входе уже готовое, часто полученное с дорогого лидара и подвергнутое трудоемкой многовидовой реконструкции облако точек. Обычная камера смартфона или архивное видео такой информации не дают.
-
Компромисс между точностью и скоростью. Существующие совместные модели либо очень медленные (особенно LLM‑подобные, генерирующие сцену как текст или код), либо сильно проигрывают аналогам в качестве.
TUN3D — это первый метод, который решает задачи сразу и детекции объектов, и оценки планировки, работая напрямую с изображениями и при этом не требуя ни точных положений камер (extrinsics), ни данных о глубине при обучении и инференсе.
Архитектура TUN3D: быстро, просто, эффективно
Модель построена по классической схеме Backbone‑Neck‑Heads, но с правильно подобранными и улучшенными компонентами.
Входные данные
Модель может работать в трёх режимах, что делает её универсальной:
-
Облако точек (классика, для максимального качества).
-
Изображения + известные позы камер (например, данные из ARKit).
-
Только изображения, без поз (наш главный кейс — видео с обычной камеры).
Для режимов 2 и 3 используется внешний модуль DUSt3R. Эта модель по набору изображений строит и глубину, и сами позы камер. На выходе получается то самое облако точек, которое дальше ест TUN3D.

Основная часть системы:
-
Backbone. Лёгкая и быстрая 3D sparse convolutional сеть (оптимизированная версия из TR3D). Она превращает вокселизированное облако точек в иерархические 3D‑признаки.
-
Neck. Агрегирует признаки с разных уровней, используя generative sparse convolution, чтобы не терять информацию об объектах на границах и заполнять пустоты внутри объектов.
-
Heads. Две специализированные «головы» работают параллельно:
-
Detection Head предсказывает 3D‑баундинг боксы и классы объектов. Взята из TR3D и доказала свою эффективность.
-
Layout Head предсказывает параметры стен.
-
Параметризация стен «2×2D + высота»
Как лучше описать стену для нейросети?
Идея здесь в следующем: стены, как и машины на дороге, нельзя ставить друг на друга. Их геометрия эффективно описывается с Bird’s‑Eye‑View (BEV) представления.
Его реализация (2×2D + высота, 5 параметров) состоит из следующих шагов:
-
Проекция. 3D‑признаки на выходе модели усредняются на плоскость пола.
-
Добавление контекста высоты. Чтобы сеть не забыла, что стены высокие, мы отдельно считаем квантили высоты (z‑координаты) всех точек сцены и кодируем их маленьким MLP в вектор глобальной статистики высоты.
-
Конкатенация. Этот вектор добавляется к каждому спроецированному 2D‑признаку.
-
Предсказание. Для каждой потенциальной стены модель учится предсказывать всего 5 чисел: 2D‑смещения двух нижних углов стены на плоскости пола и её высоту. Всё! Верхние углы получаются автоматическим поднятием нижних.
Эта параметризация оказалась не только самой компактной, но и самой точной, давая прирост в качестве.
Эксперименты
Мы протестировали нашу модель на всех ключевых датасетах: ScanNet, S3DIS, ARKitScenes, Structured3D для каждого режима.
1. Облака точек (верхний предел качества).
TUN3D устанавливает новый SOTA как в задаче планировки, так и в детекции.
-
Layout F1: 66.6 на ScanNet (превышает Omni‑PQ на +5.8 и PQ‑Transformer на +12.2).
-
Detection mAP@0.25: 74.4 на S3DIS, что сравнимо с лучшими специализированными детекторами, при том что наша модель параллельно строит и планировку.
2. Изображения с известными позами.
Здесь TUN3D (в связке с DUSt3R) тоже показывает хорошие числа, особенно среди методов, не использующих глубину на обучении. Мы первые, кто вообще замерил качество оценки планировки в этом сценарии на реальных данных.
3. Просто изображения, без поз.
Предшественников, которые делают и то, и другое на реальных данных, просто нет. TUN3D задаёт новую постановку в этой области. Удивительно, но качество планировки в этом режиме (46.5 F1) оказалось выше, чем у базовой модели PQ‑Transformer, которой позы дали (44.1 F1)! Это показывает, что наша архитектура и параметризация стен более устойчивы к шуму во входных данных.
Скорость — ещё одно наше преимущество: TUN3D не только точный, но и быстрый! Например, у нас выходит ~49 мс на сцену из ScanNet против 217 мс у PQ‑Transformer и 7935 мс у тяжеловесного SpatialLM. Такая эффективность достигается за счёт лёгкого sparse‑conv бэкбона и простых голов.
Выводы и перспективы
TUN3D — это значительный шаг к практическому, «полевому» пониманию 3D‑сцен. Если кратко подытоживать нашу работу, можно сказать следующее:
-
Создана быстрая и точная модель для совместной оценки планировки и 3D‑детекции.
-
Метод очень сильно снижает требования к входным данным, работая с обычными изображениями без поз и глубины, открывая дорогу для применения на массовых устройствах.
-
Предложена эффективная BEV‑параметризация стен и архитектура, балансирующая скорость и качество.
Работа открывает множество возможностей: от мгновенного создания цифровых двойников помещений силами любого смартфона до новых интерактивных приложений в AR и для роботов. Код лежит в открытом доступе, сообщество может попробовать эту технологию в деле.
Хотел бы поблагодарить моих коллег и соавторов: Никиту Дроздова, Булата Габдуллина, Алексея Захарова, Анну Воронцову, Данилу Руховича и Антона Конушина.
Рад буду ответить на вопросы!
Автор: maksim_ko


