Apple представила Matrix3D — нейросеть для фотограмметрии. apple.. apple. Matrix3D.. apple. Matrix3D. искусственный интеллект.. apple. Matrix3D. искусственный интеллект. Машинное обучение.. apple. Matrix3D. искусственный интеллект. Машинное обучение. нейросети.. apple. Matrix3D. искусственный интеллект. Машинное обучение. нейросети. фотограмметрия.

Исследователи Apple выпустили Matrix3D — универсальную нейросеть для фотограмметрии. С её помощью пользователи могут преобразовывать группы снимков предметов в детализированные 3D-модели. Компания опубликовала веса и подробно рассказала о реализации метода.

Apple представила Matrix3D — нейросеть для фотограмметрии - 1

Matrix3D — унифицированная модель, которая выполняет сразу несколько задач: оценку положения камеры, генерацию ракурсов и прогнозирование глубины кадров. Всё это обеспечивает мультимодальный диффузионный трансформер. В итоге удаётся упростить конвейер, избавившись от связки нескольких моделей, и повысить точность генерации.

Пайплайн Matrix3D

Пайплайн Matrix3D

Нейросеть обучали с помощью маскирования (Masked Autoencoder, MAE): модели передают пары изображение-ракурс с частично скрытыми данными, а она пробует достроить недостающие элементы. Впоследствии это позволяет эффективно генерировать недостающие ракурсы и использовать для генерации данные с физических датчиков. Также метод обучения с маскированием помогает Matrix3D прогнозировать глубину объектов всего по трём кадрам.

Пайплайн обучения Matrix3D

Пайплайн обучения Matrix3D

Исследователи опубликовали код и веса модели. В репозитории есть инструкция по запуску Matrix3D. Разработчики отмечают, что протестировали нейросеть в Ubuntu 20.04 с PyTorch 2.4 и Python 3.10. Для запуска рекомендуют воссоздать среду со всеми зависимостями, но для некоторых потребуется CUDA.

Пример работы Matrix3D

Пример работы Matrix3D

Автор: daniilshat

Источник

Rambler's Top100