
Институт Аллена (Ai2) опубликовал полный исходный код семейства моделей Molmo 2, которые специализируются на анализе видео и изображений. Модели показывают передовые результаты в трекинге объектов, подсчете и покадровом логическом выводе.
Теперь разработчики могут самостоятельно обучать Molmo 2 на собственных данных и разворачивать её в своих системах. Репозиторий включает полный набор инфраструктурных инструментов: скрипты для претрейна и файнтюнинга, поддержку распределённого обучения на нескольких узлах, утилиты для подготовки данных и оценки качества.
Для деплоя доступны конвертер чекпоинтов в стандартный формат Hugging Face, примеры инференса через transformers и vLLM, легковесная утилита для офлайн-обработки графики, готовый Docker-образ и Gradio-демо.
Открытый доступ к Molmo 2 позволяет исследователям и компаниям интегрировать высокоуровневый анализ видео и изображений без необходимости создавать инфраструктуру с нуля. Это ускоряет внедрение компьютерного зрения в промышленные и научные проекты.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


