робот грин.

Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение

VLA, или Vision-Language-Action models, сегодня становятся одной из основных парадигм в робототехнике. Идея выглядит естественно: если большие визуально-языковые модели уже умеют связывать изображение, текст и высокоуровневое понимание сцены, то следующий шаг состоит в том, чтобы добавить к этому действия робота. Так появляется единый контур, в котором модель видит сцену, понимает инструкцию на естественном языке и выдаёт осмысленное управление.

продолжить чтение