- BrainTools - https://www.braintools.ru -

Модель MolmoAct от Ai2, мыслящая в 3D, бросает вызов Nvidia и Google

Модель MolmoAct от Ai2, мыслящая в 3D, бросает вызов Nvidia и Google - 1

Физический ИИ — область, где сходятся робототехника и базовые модели, — стремительно набирает обороты. Крупнейшие компании, такие как Nvidia, Google и Meta, уже ведут исследования и экспериментируют с объединением больших языковых моделей (LLM) и роботов.

Свежая разработка Института искусственного интеллекта [1] Аллена (Allen Institute for AI, Ai2) стремится потеснить Nvidia и Google в этой области. Речь идёт о MolmoAct 7B — новой открытой модели, способной «мыслить в пространстве». Она основана на открытом проекте Ai2 Molmo и работает с трёхмерным восприятием [2]. Вместе с моделью разработчики публикуют и обучающие данные. Лицензия на MolmoAct — Apache 2.0, на датасеты — CC BY-4.0.

В Ai2 относят MolmoAct к классу action reasoning model — моделей, которые анализируют и выстраивают действия в физическом, трёхмерном пространстве. Иными словами, MolmoAct способна воспринимать окружающий мир, продумывать, как расположиться в нём и совершить действие.

«MolmoAct умеет рассуждать в 3D‑пространстве, в отличие от традиционных моделей VLA (vision‑language‑action), — пояснили в Ai2. — Большинство таких систем не думают о пространстве, но MolmoAct это умеет, что делает её более универсальной и эффективной с архитектурной точки зрения».

Понимание физического мира

Поскольку роботы действуют в реальном, осязаемом мире, в Ai2 утверждают: MolmoAct помогает им лучше воспринимать окружение и принимать более взвешенные решения о взаимодействии с ним.

«MolmoAct можно применять везде, где машине нужно анализировать физическую обстановку, — говорят разработчики. — Мы чаще всего думаем о бытовых сценариях, потому что именно там роботы сталкиваются с наибольшими трудностями: обстановка непостоянна, всё меняется. Но возможностей для применения — гораздо больше».

MolmoAct интерпретирует окружающий мир с помощью так называемых spatially grounded perception tokens — «пространственно привязанных токенов восприятия». Эти токены предварительно обучаются и извлекаются с помощью векторно‑квантованного вариационного автоэнкодера — модели, которая преобразует входные данные, например видео, в токены. В Ai2 отмечают, что, в отличие от VLA, их токены не являются текстовыми.

Это даёт MolmoAct способность улавливать пространственные связи и кодировать геометрические структуры, оценивая расстояния между объектами. Получив оценку дистанции, модель прогнозирует цепочку точек‑ориентиров в пространстве изображения — своего рода маршрут. После этого она начинает выдавать конкретные действия: опустить манипулятор на несколько сантиметров, вытянуть руку вперёд и т. п.

Исследователи Ai2 подчёркивают, что модель легко адаптируется к разным типам роботов — будь то механическая рука или гуманоид — и для этого требуется минимальная донастройка.

В тестах на бенчмарках MolmoAct 7B показала успех выполнения задач на уровне 72,1%, обойдя решения от Google, Microsoft и Nvidia.

Модель MolmoAct от Ai2, мыслящая в 3D, бросает вызов Nvidia и Google - 2

Важный шаг вперёд

Исследование Ai2 стало очередным примером того, как разработчики всё активнее используют уникальные преимущества LLM и VLM — особенно на фоне стремительного прогресса в генеративном ИИ. Эксперты считают наработки Ai2 и других технологических компаний своеобразными кирпичиками, на которых будет строиться будущее.

Алан Ферн, профессор Инженерного колледжа Университета штата Орегон, в беседе с VentureBeat отметил, что работа Ai2 — это «естественный шаг в развитии VLM‑моделей для робототехники и пространственного мышления».

«Я бы не назвал это революцией, но это важный рывок вперёд в создании более совершенных моделей трёхмерного анализа и планирования действий, — сказал Ферн. — Их фокус на реальном понимании трёхмерной сцены, в отличие от упора на 2D, — заметный поворот в правильную сторону. Да, они улучшили показатели по сравнению с прежними моделями, но тесты всё же далеки от реальной сложности и выглядят скорее контролируемыми лабораторными задачками».

Учёный добавил, что, несмотря на необходимость доработки бенчмарков, он «с нетерпением ждёт возможности испытать новую модель на своих задачах по пространственному мышлению [3]».

Сооснователь стартапа Gather AI Даниэль Матурана высоко оценил открытость проекта: «Это отличная новость, ведь разработка и обучение [4] подобных моделей обходятся дорого. Теперь у академических лабораторий и даже у увлечённых энтузиастов появляется прочная база, на которой можно строить и дорабатывать свои решения».

Растущий интерес к физическому ИИ

Мечта о создании более «умных» или хотя бы пространственно ориентированных роботов живёт у разработчиков и учёных уже не одно десятилетие.

Но реальность такова, что создать машину, которая быстро обрабатывает увиденное, двигается и реагирует плавно, — задача непростая. До появления LLM инженерам приходилось прописывать каждое движение вручную. Это отнимало массу времени и лишало роботов гибкости. Теперь же методы на основе LLM позволяют роботам — или хотя бы механическим манипуляторам — самостоятельно определять следующий шаг, ориентируясь на объекты, с которыми они взаимодействуют.

Так, система SayCan от Google Research помогает роботу выстраивать цепочку действий для достижения цели, используя LLM. А проект OK‑Robot✶ от Meta✶ и Нью‑Йоркского университета применяет визуально‑языковые модели для планирования движений и манипуляций с предметами.

Компания Hugging Face выпустила настольного робота за 299 $ [5] с целью демократизировать разработку в робототехнике. Nvidia, провозгласившая физический ИИ новой крупной тенденцией, представила несколько моделей для ускоренного обучения роботов, в том числе Cosmos‑Transfer1.

По словам Ферна из OSU, интерес [6] к физическому ИИ растёт, даже несмотря на то, что демонстраций пока немного. Но задача достижения универсального физического интеллекта — когда роботу не нужно программировать каждое действие отдельно — постепенно становится реальнее.

«Сейчас обстановка сложнее: лёгких побед почти не осталось. Но зато крупные модели физического интеллекта всё ещё на ранней стадии, и у них огромный потенциал для быстрого прогресса. Именно это делает сферу такой захватывающей», — подчеркнул он.

Meta — деятельность организации запрещена на территории Российской Федерации.
OK‑Robot — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News [7].

Автор: dmitrifriend

Источник [8]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18316

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] восприятием: http://www.braintools.ru/article/7534

[3] мышлению: http://www.braintools.ru/thinking

[4] обучение: http://www.braintools.ru/article/5125

[5] настольного робота за 299 $: https://habr.com/ru/companies/bothub/news/926738/

[6] интерес: http://www.braintools.ru/article/4220

[7] BotHub AI News: https://t.me/bothub

[8] Источник: https://habr.com/ru/companies/bothub/news/936980/?utm_source=habrahabr&utm_medium=rss&utm_campaign=936980

www.BrainTools.ru

Rambler's Top100