- BrainTools - https://www.braintools.ru -

Физический ИИ — область, где сходятся робототехника и базовые модели, — стремительно набирает обороты. Крупнейшие компании, такие как Nvidia, Google и Meta, уже ведут исследования и экспериментируют с объединением больших языковых моделей (LLM) и роботов.
Свежая разработка Института искусственного интеллекта [1] Аллена (Allen Institute for AI, Ai2) стремится потеснить Nvidia и Google в этой области. Речь идёт о MolmoAct 7B — новой открытой модели, способной «мыслить в пространстве». Она основана на открытом проекте Ai2 Molmo и работает с трёхмерным восприятием [2]. Вместе с моделью разработчики публикуют и обучающие данные. Лицензия на MolmoAct — Apache 2.0, на датасеты — CC BY-4.0.
В Ai2 относят MolmoAct к классу action reasoning model — моделей, которые анализируют и выстраивают действия в физическом, трёхмерном пространстве. Иными словами, MolmoAct способна воспринимать окружающий мир, продумывать, как расположиться в нём и совершить действие.
«MolmoAct умеет рассуждать в 3D‑пространстве, в отличие от традиционных моделей VLA (vision‑language‑action), — пояснили в Ai2. — Большинство таких систем не думают о пространстве, но MolmoAct это умеет, что делает её более универсальной и эффективной с архитектурной точки зрения».
Поскольку роботы действуют в реальном, осязаемом мире, в Ai2 утверждают: MolmoAct помогает им лучше воспринимать окружение и принимать более взвешенные решения о взаимодействии с ним.
«MolmoAct можно применять везде, где машине нужно анализировать физическую обстановку, — говорят разработчики. — Мы чаще всего думаем о бытовых сценариях, потому что именно там роботы сталкиваются с наибольшими трудностями: обстановка непостоянна, всё меняется. Но возможностей для применения — гораздо больше».
MolmoAct интерпретирует окружающий мир с помощью так называемых spatially grounded perception tokens — «пространственно привязанных токенов восприятия». Эти токены предварительно обучаются и извлекаются с помощью векторно‑квантованного вариационного автоэнкодера — модели, которая преобразует входные данные, например видео, в токены. В Ai2 отмечают, что, в отличие от VLA, их токены не являются текстовыми.
Это даёт MolmoAct способность улавливать пространственные связи и кодировать геометрические структуры, оценивая расстояния между объектами. Получив оценку дистанции, модель прогнозирует цепочку точек‑ориентиров в пространстве изображения — своего рода маршрут. После этого она начинает выдавать конкретные действия: опустить манипулятор на несколько сантиметров, вытянуть руку вперёд и т. п.
Исследователи Ai2 подчёркивают, что модель легко адаптируется к разным типам роботов — будь то механическая рука или гуманоид — и для этого требуется минимальная донастройка.
В тестах на бенчмарках MolmoAct 7B показала успех выполнения задач на уровне 72,1%, обойдя решения от Google, Microsoft и Nvidia.

Исследование Ai2 стало очередным примером того, как разработчики всё активнее используют уникальные преимущества LLM и VLM — особенно на фоне стремительного прогресса в генеративном ИИ. Эксперты считают наработки Ai2 и других технологических компаний своеобразными кирпичиками, на которых будет строиться будущее.
Алан Ферн, профессор Инженерного колледжа Университета штата Орегон, в беседе с VentureBeat отметил, что работа Ai2 — это «естественный шаг в развитии VLM‑моделей для робототехники и пространственного мышления».
«Я бы не назвал это революцией, но это важный рывок вперёд в создании более совершенных моделей трёхмерного анализа и планирования действий, — сказал Ферн. — Их фокус на реальном понимании трёхмерной сцены, в отличие от упора на 2D, — заметный поворот в правильную сторону. Да, они улучшили показатели по сравнению с прежними моделями, но тесты всё же далеки от реальной сложности и выглядят скорее контролируемыми лабораторными задачками».
Учёный добавил, что, несмотря на необходимость доработки бенчмарков, он «с нетерпением ждёт возможности испытать новую модель на своих задачах по пространственному мышлению [3]».
Сооснователь стартапа Gather AI Даниэль Матурана высоко оценил открытость проекта: «Это отличная новость, ведь разработка и обучение [4] подобных моделей обходятся дорого. Теперь у академических лабораторий и даже у увлечённых энтузиастов появляется прочная база, на которой можно строить и дорабатывать свои решения».
Мечта о создании более «умных» или хотя бы пространственно ориентированных роботов живёт у разработчиков и учёных уже не одно десятилетие.
Но реальность такова, что создать машину, которая быстро обрабатывает увиденное, двигается и реагирует плавно, — задача непростая. До появления LLM инженерам приходилось прописывать каждое движение вручную. Это отнимало массу времени и лишало роботов гибкости. Теперь же методы на основе LLM позволяют роботам — или хотя бы механическим манипуляторам — самостоятельно определять следующий шаг, ориентируясь на объекты, с которыми они взаимодействуют.
Так, система SayCan от Google Research помогает роботу выстраивать цепочку действий для достижения цели, используя LLM. А проект OK‑Robot✶ от Meta✶ и Нью‑Йоркского университета применяет визуально‑языковые модели для планирования движений и манипуляций с предметами.
Компания Hugging Face выпустила настольного робота за 299 $ [5] с целью демократизировать разработку в робототехнике. Nvidia, провозгласившая физический ИИ новой крупной тенденцией, представила несколько моделей для ускоренного обучения роботов, в том числе Cosmos‑Transfer1.
По словам Ферна из OSU, интерес [6] к физическому ИИ растёт, даже несмотря на то, что демонстраций пока немного. Но задача достижения универсального физического интеллекта — когда роботу не нужно программировать каждое действие отдельно — постепенно становится реальнее.
«Сейчас обстановка сложнее: лёгких побед почти не осталось. Но зато крупные модели физического интеллекта всё ещё на ранней стадии, и у них огромный потенциал для быстрого прогресса. Именно это делает сферу такой захватывающей», — подчеркнул он.
✶ Meta — деятельность организации запрещена на территории Российской Федерации.
✶ OK‑Robot — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News [7].
Автор: dmitrifriend
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18316
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] восприятием: http://www.braintools.ru/article/7534
[3] мышлению: http://www.braintools.ru/thinking
[4] обучение: http://www.braintools.ru/article/5125
[5] настольного робота за 299 $: https://habr.com/ru/companies/bothub/news/926738/
[6] интерес: http://www.braintools.ru/article/4220
[7] BotHub AI News: https://t.me/bothub
[8] Источник: https://habr.com/ru/companies/bothub/news/936980/?utm_source=habrahabr&utm_medium=rss&utm_campaign=936980
Нажмите здесь для печати.