Яндекс работает над Physical AI: универсальный ИИ-мозг для роботов и автономного транспорта

Команды Яндекс Роботикс и автономного транспорта работают над Physical AI — физическим искусственным интеллектом ^[1], который понимает материальный мир, взаимодействует с ним и адаптируется под любые условия.

Physical AI станет основой для роботов, автомобилей и гуманоидов следующего поколения. Он объединяет восприятие ^[2], планирование и взаимодействие с физической средой и делает возможным создание универсального «мозга», способного работать в разных телах и решать задачи без жёсткой привязки к конкретной форме робота.

Робототехника сегодня крайне фрагментирована — существует множество несовместимых таксономий и конструкций ^[3]. Это специализированные роботы, которые умеют решать конкретный спектр задач. Но как сделать из робота полноценного и универсального помощника человека? Ключ к развитию — в гибком интеллекте, который может адаптироваться под любое «тело» робота.

Какую задачу решает Physical AI

Сейчас роботы умеют двигаться, держать равновесие и выполнять отдельные действия, но им не хватает понимания контекста — связи между причиной и следствием. Чтобы действовать как человек, робот должен предсказывать последствия своих действий: понимать, что вода выльется, если наклонить стакан, или что при переноске объекта нужно учесть его вес и устойчивость.

Физический искусственный интеллект развивают команды Яндекс Роботикс и автономного транспорта. Опыт ^[4], накопленный на дорогах и внутри помещений, в сочетании с технологиями Яндекса позволит:

Научить роботов и автономные автомобили комплексно обрабатывать мультимодальные данные: изображение, видео, звук, текст. Это приблизит их восприятие к человеческому.
Обеспечить адаптивность. Существуют разные виды роботов и автономного транспорта с разными возможностями, поэтому физический ИИ должен уметь подстраиваться под любые «тела».
Научить роботов и автономные автомобили моделировать разные варианты развития событий и самостоятельно принимать решения исходя из обстановки.

Сервисные и промышленные роботы

Команда Яндекс Роботикс разрабатывает и обучает модель VLA (Vision‑Language‑Action), которая переводит голосовые и текстовые команды и изображение с камер в конкретные действия. Сейчас она поддерживает более десяти базовых операций вроде «взять», «положить», «перенести» — и их число растёт. С помощью Yandex RMS — системы управления роботами, которую развивает Яндекс Роботикс, — роботы также смогут определять, какую комбинацию действий использовать в той или иной задаче и как её решать: самостоятельно или в кооперации с другими роботами.

Когда‑то ориентиром, чтобы оценить интеллект машин, был тест Тьюринга. Для Physical AI аналогом можно считать тест Возняка — задание «сходить на кухню и сделать кофе». Причём робот должен выполнить это задание независимо от того, знакома ему эта кухня или нет.

Чтобы пройти его, робот должен распознать предметы в новой обстановке, понять их назначение, спланировать действия, выполнить их безопасно и реагировать ^[5] на неожиданные события: например, если пролилась вода или не открылась дверь. Это большой объём контекста.

Поэтому роботам дают детальные инструкции, которые помогут приблизить роботов к прохождению такого теста — шаг за шагом, через объяснение, демонстрацию и совместное обучение ^[6]. Такой подход помогает ускорить путь к универсальному интеллекту: человек объясняет роботу задачу, демонстрирует правильное поведение ^[7], а робот учится повторять ^[8] и обобщать.

Physical AI и автономный транспорт

Команда Автономного транспорта развивает ML‑планировщик — систему, которая отвечает за то, как автомобиль выбирает траекторию движения. В её основе — нейросеть‑трансформер, обученная на данных о реальных действиях профессиональных водителей. Благодаря этому планировщик помогает машине двигаться естественно, плавно и предсказуемо — почти так же, как человек.

Параллельно идёт работа над симулятором, где автономные автомобили, роботы‑доставщики и гуманоидные роботы учатся действовать в сложных и редких ситуациях. В виртуальной среде можно воспроизвести то, что в реальности встречается нечасто — например, внезапное появление пешехода или нестандартную развязку, — и безопасно проверить реакцию модели.

Следующий шаг — внедрение Physical AI. Он позволит технике воспринимать мир не как набор статичных объектов, а как живую, постоянно меняющуюся сцену. Автомобили, роботы‑доставщики и гуманоиды смогут учитывать сигналы светофоров при планировании маршрута, предсказывать поведение ^[9] других участников движения, оценивать вес и устойчивость предметов и точнее взаимодействовать с окружающей средой — безопасно, осмысленно и в реальном времени.

Работа над Physical AI ещё ведётся — подробности мы расскажем в отдельной статье в нашем блоге на Хабре.

Автор: EMikhaylenko

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21017

URLs in this post:

[1] интеллектом: http://www.braintools.ru/article/7605

[2] восприятие: http://www.braintools.ru/article/7534

[3] несовместимых таксономий и конструкций: https://arxiv.org/abs/2101.02659

[4] Опыт: http://www.braintools.ru/article/6952

[5] реагировать: http://www.braintools.ru/article/1549

[6] обучение: http://www.braintools.ru/article/5125

[7] поведение: http://www.braintools.ru/article/9372

[8] повторять: http://www.braintools.ru/article/4012

[9] поведение: http://www.braintools.ru/article/5593

[10] Источник: https://habr.com/ru/companies/yandex/news/959106/?utm_source=habrahabr&utm_medium=rss&utm_campaign=959106

Нажмите здесь для печати.