- BrainTools - https://www.braintools.ru -
Исследователи Apple выпустили [1] Matrix3D — универсальную нейросеть для фотограмметрии. С её помощью пользователи могут преобразовывать группы снимков предметов в детализированные 3D-модели. Компания опубликовала веса и подробно рассказала о реализации метода.

Matrix3D — унифицированная модель, которая выполняет сразу несколько задач: оценку положения камеры, генерацию ракурсов и прогнозирование глубины кадров. Всё это обеспечивает мультимодальный диффузионный трансформер. В итоге удаётся упростить конвейер, избавившись от связки нескольких моделей, и повысить точность генерации.
Нейросеть обучали с помощью маскирования (Masked Autoencoder, MAE): модели передают пары изображение-ракурс с частично скрытыми данными, а она пробует достроить недостающие элементы. Впоследствии это позволяет эффективно генерировать недостающие ракурсы и использовать для генерации данные с физических датчиков. Также метод обучения [2] с маскированием помогает Matrix3D прогнозировать глубину объектов всего по трём кадрам.
Исследователи опубликовали [3] код и веса модели. В репозитории есть инструкция по запуску Matrix3D. Разработчики отмечают, что протестировали нейросеть в Ubuntu 20.04 с PyTorch 2.4 и Python 3.10. Для запуска рекомендуют воссоздать среду со всеми зависимостями, но для некоторых потребуется CUDA.
Автор: daniilshat
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14973
URLs in this post:
[1] выпустили: https://nju-3dv.github.io/projects/matrix3d/
[2] обучения: http://www.braintools.ru/article/5125
[3] опубликовали: https://github.com/apple/ml-matrix3d
[4] Источник: https://habr.com/ru/news/907472/?utm_source=habrahabr&utm_medium=rss&utm_campaign=907472
Нажмите здесь для печати.