Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение
VLA, или Vision-Language-Action models, сегодня становятся одной из основных парадигм в робототехнике. Идея выглядит естественно: если большие визуально-языковые модели уже умеют связывать изображение, текст и высокоуровневое понимание сцены, то следующий шаг состоит в том, чтобы добавить к этому действия робота. Так появляется единый контур, в котором модель видит сцену, понимает инструкцию на естественном языке и выдаёт осмысленное управление.
«Сбер» открыл исходный код и веса модели своего робота Грина на базе нейросети Green-VLA
Команда Центра Робототехники «Сбера» открыла исходный код на Python и веса модели для робота Грина (на GitHub, веса на

