
Сбербанк опубликовал технический отчёт Green-VLA, посвящённый развитию ключевой технологии физического искусственного интеллекта (Physical AI) — моделей Vision–Language–Action (VLA). Такие модели позволяют роботам воспринимать окружающую среду, интерпретировать инструкции на естественном языке и преобразовывать их в осмысленные физические действия.
Материал занял первое место среди статей дня на платформе Hugging Face, обойдя публикации Moonshot AI, а также совместные исследования китайских и американских университетов, рассказали Хабру в пресс-службе «Сбера».
Модель Green-VLA построена на базе нейросети «ГигаЧат» и описывает практический подход к обучению VLA-моделей — от этапа базового предобучения до настройки поведения робота в реальных условиях. В отчёте представлен не отдельный эксперимент, а целостная методология, ориентированная на использование в инженерной и исследовательской практике при создании надёжных робототехнических систем.
Physical AI — одна из наиболее динамично развивающихся областей искусственного интеллекта. Несмотря на заметный прогресс, ключевыми вызовами для отрасли остаются стабильность работы роботов, обеспечение кроссплатформенного взаимодействия и выполнение сложных многоэтапных задач. В Green‑VLA предлагают системный подход к решению этих проблем, основанный на измеримых и инженерно обоснованных принципах обучения систем управления.
Эффективность подхода подтверждена результатами на международных бенчмарках Simpler Fractal и Simpler WidowX, разработанных Стэнфордским университетом и Google, а также CALVIN Фрайбургского университета. Кроме того, на международной конференции AI Journey 2025 робот «Грин» под управлением Green-VLA непрерывно работал более 10 часов, выполняя задачи без заметных сбоев и деградации поведения.
В Сбербанке отмечают, что Green-VLA рассматривается как следующий шаг в формировании технологического стека Physical AI, где VLA-модели выступают связующим звеном между восприятием среды, пониманием задач и физическим действием. Такой подход, по мнению разработчиков, открывает путь к созданию более автономных, устойчивых и универсальных робототехнических решений.
При этом Green-VLA позиционируется не как готовый универсальный контроллер, а как открытая методология обучения. Архитектура решения предполагает базовое предобучение с последующей адаптацией под конкретную роботизированную платформу, что обеспечивает гибкость и потенциал масштабирования.
С отчётом можно ознакомиться на arXiv и Hugging Face.
Ранее лидер команды Body Development Центра Робототехники «Сбера» Денис Дмитриев в видеодокладе рассказал про историю создания, разработку элементов и комплектующих для производства и обучения ��обота Грина, а также управления им.
Автор: LizzieSimpson


