- BrainTools - https://www.braintools.ru -

В преддверии Дня российской науки мы опубликовали технический отчёт Green‑VLA, посвящённый развитию ключевой технологии физического искусственного интеллекта [1] (Physical AI) — моделей Vision‑Language‑Action (VLA), которые позволяют роботам понимать окружающий мир, интерпретировать инструкции и превращать их в осмысленные физические действия. Материал занял первое место среди статей дня на портале Hugging Face, обогнав работы Moonshot AI и совместные исследования китайских и американских университетов.
Green‑VLA, построенная на основе нейросети ГигаЧат, описывает практический подход к обучению [2] таких моделей, от базового обучения до настройки поведения [3] робота в реальных условиях. В центре внимания [4] не отдельная демонстрация, а целостная методология, которая может быть использована исследователями и инженерами для создания надёжных робототехнических систем.
Physical AI — это динамично развивающаяся область. Современные роботы демонстрируют широкий спектр возможностей, однако ключевыми задачами для их дальнейшего прогресса остаются повышение стабильности, обеспечение кроссплатформенного взаимодействия и выполнение сложных многоэтапных операций. Green‑VLA предлагает системный подход к решению этих задач. Он основан на измеримых и инженерно выверенных принципах обучения систем управления роботов.
Эффективность подхода подтверждена как SOTA‑результатами как на практике, так и на международных бенчмарках Simpler Fractal и Simpler widowX (Стэнфордский университет и Google), а также CALVIN (Фрайбургский университет). На международной конференции AI Journey 2025 робот Грин под управлением Green‑VLA непрерывно работал более 10 часов, выполняя задачи без заметных сбоев и деградации поведения [5].
Технология VLA становится «мозгом» физического искусственного интеллекта: Vision Action Language модели превращают зрение [6] и язык в исполняемое действие. Именно такие решения помогли сделать нам собственного ИИ‑робота. В Green‑VLA мы показываем, как сделать этот слой инженерно надёжным: с переносимостью между роботами и выравниванием поведения с помощью обучения с подкреплением [7], чтобы модель работала не только в демо, но и в воспроизводимых сценариях и бенчмарках. Мы планируем делиться своими наработками для развития отечественной экосистемы ИИ и робототехники, предоставляя исследователям и инженерам инструмент для создания инновационных решений.
Модель Green‑VLA рассматривается как очередной шаг к формированию технологического стека Physical AI, в котором VLA‑модели становятся связующим звеном между восприятием [8] мира, пониманием задач и физическим действием. Такой подход открывает путь к созданию более автономных, устойчивых и универсальных робототехнических решений.
Green‑VLA позиционируется как открытая методология обучения, а не готовый универсальный контроллер для роботов. Архитектура решения предполагает этап базового предобучения с последующей адаптацией к целевой роботизированной системе, что определяет его гибкость и потенциал для масштабирования.
С отчётом можно ознакомиться на arXiv [9] и Hugging Face [10].
Автор: Sber
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25306
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучению: http://www.braintools.ru/article/5125
[3] поведения: http://www.braintools.ru/article/9372
[4] внимания: http://www.braintools.ru/article/7595
[5] поведения: http://www.braintools.ru/article/5593
[6] зрение: http://www.braintools.ru/article/6238
[7] подкреплением: http://www.braintools.ru/article/5528
[8] восприятием: http://www.braintools.ru/article/7534
[9] arXiv: https://arxiv.org/abs/2602.00919
[10] Hugging Face: https://huggingface.co/papers/2602.00919
[11] Источник: https://habr.com/ru/companies/sberbank/articles/993610/?utm_campaign=993610&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.