Apple представила Matrix3D — нейросеть для фотограмметрии

Исследователи Apple выпустили ^[1] Matrix3D — универсальную нейросеть для фотограмметрии. С её помощью пользователи могут преобразовывать группы снимков предметов в детализированные 3D-модели. Компания опубликовала веса и подробно рассказала о реализации метода.

Matrix3D — унифицированная модель, которая выполняет сразу несколько задач: оценку положения камеры, генерацию ракурсов и прогнозирование глубины кадров. Всё это обеспечивает мультимодальный диффузионный трансформер. В итоге удаётся упростить конвейер, избавившись от связки нескольких моделей, и повысить точность генерации.

Нейросеть обучали с помощью маскирования (Masked Autoencoder, MAE): модели передают пары изображение-ракурс с частично скрытыми данными, а она пробует достроить недостающие элементы. Впоследствии это позволяет эффективно генерировать недостающие ракурсы и использовать для генерации данные с физических датчиков. Также метод обучения ^[2] с маскированием помогает Matrix3D прогнозировать глубину объектов всего по трём кадрам.

Исследователи опубликовали ^[3] код и веса модели. В репозитории есть инструкция по запуску Matrix3D. Разработчики отмечают, что протестировали нейросеть в Ubuntu 20.04 с PyTorch 2.4 и Python 3.10. Для запуска рекомендуют воссоздать среду со всеми зависимостями, но для некоторых потребуется CUDA.

Автор: daniilshat

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14973

URLs in this post:

[1] выпустили: https://nju-3dv.github.io/projects/matrix3d/

[2] обучения: http://www.braintools.ru/article/5125

[3] опубликовали: https://github.com/apple/ml-matrix3d

[4] Источник: https://habr.com/ru/news/907472/?utm_source=habrahabr&utm_medium=rss&utm_campaign=907472

Нажмите здесь для печати.