DeepMind планирует наделить роботов «внутренним голосом»

Google DeepMind разрабатывает ^[1] систему, которая обеспечит ИИ-агентов «внутренним голосом», чтобы помочь им более эффективно изучать задачи и в итоге стать «умнее».

В патентной заявке лаборатория описала ^[2] метод под названием «Внутриагентная речь для облегчения обучения ^[3] задачам», где роботы наблюдают за задачами через изображения или видео, а затем генерируют их описания на естественном языке.

По словам исследователей, такой «внутренний монолог» помогает связать визуальный ввод с действиями, позволяя агентам понимать и взаимодействовать с незнакомыми объектами без предварительного обучения, а также снижая требования к памяти ^[4] и вычислениям.

Например, робот может смотреть видео, на котором кто-то поднимает чашку, одновременно внутренне обрабатывая фразу «человек поднимает чашку». Это позволит агенту «вспоминать» правильные действия, которые следует предпринять при столкновении с похожими объектами. В итоге робот сможет принимать более обоснованные решения и эффективнее адаптироваться к новым ситуациям в динамичных реальных средах.

Техника поддерживает так называемое обучение «с нуля», то есть робот сможет выполнять задачи, связанные с незнакомыми объектами, без предварительного обучения. DeepMind отмечает, что такой подход снизит требования к памяти и вычислительной мощности, необходимым для обучения роботизированных систем.

Инициатива основана на более широких усилиях DeepMind в области робототехники. В июне компания представила ^[5] «Gemini Robotics On-Device», которая предназначена для работы без доступа к облаку. Google утверждает, что модель компактна и достаточно эффективна, чтобы работать непосредственно внутри робота.

Gemini Robotics On-Device — это версия модели Gemini Robotics Vision-Language, созданная для работы с роботами и без Интернета. Разработанная для чувствительных к задержкам или автономных сред, она работает локально, что позволяет роботам быстро реагировать ^[6] на меняющиеся условия и сохранять конфиденциальность данных.

Gemini Robotics On-Device способна выполнять задачи из коробки и может адаптироваться к новым всего за 50–100 демонстраций. Разработчики Google позиционируют её как «стартовую модель». Первоначально обученный на роботе ALOHA от Google, ИИ был адаптирован к другим, таким как гуманоид Apollo от Apptronik и Franka FR3. Модель обрабатывает сложные действия, такие как складывание одежды или расстёгивание сумок.

Разработчики могут настраивать модель, дистанционно управляя роботом, чтобы изучать новые задачи. Она поддерживает моделирование с помощью динамики Multi-Joint с физическим движком Contact или развёртывание в физических средах. Однако, в отличие от гибридного аналога, версия на устройстве не имеет встроенных семантических систем безопасности. Google советует разработчикам внедрять собственные протоколы безопасности и на данный момент ограничила доступ к ИИ для оценки реальных рисков безопасности.

Автор: maybe_elf

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17000

URLs in this post:

[1] разрабатывает: https://www.thedailyupside.com/cio/enterprise-ai/deepmind-patent-gives-ai-robots-inner-speech/

[2] описала: https://ppubs.uspto.gov/pubwebapp/external.html?q=(20250209340).pn.&db=US-PGPUB

[3] обучения: http://www.braintools.ru/article/5125

[4] памяти: http://www.braintools.ru/article/4140

[5] представила: https://habr.com/ru/companies/bothub/news/921470/

[6] реагировать: http://www.braintools.ru/article/1549

[7] Источник: https://habr.com/ru/news/925346/?utm_source=habrahabr&utm_medium=rss&utm_campaign=925346

Нажмите здесь для печати.