- BrainTools - https://www.braintools.ru -

Роботы всё чаще видят мир камерой и читают наши текстовые инструкции. Но часто это «знание» не превращается в верное действие: модель понимает, что такое «чашка», но не знает, куда её ставить и как обойти соседние предметы. Этот разрыв между зрением [1] и действием называется seeing‑to‑doing gap. Команда Embodied‑R1 предлагает простую и неожиданно мощную идею: учить робота говорить на языке «указаний» — точек и визуальных следов на изображении. Такая точка или их последовательность напрямую якорит рассуждение в сцене: вот объект, вот функциональная часть, вот свободная область, а вот безопасная траектория. Представление получается независимым от конкретного робота и понятным как человеку, так и планировщику движения.
Авторы обобщают «указание» в четыре базовых навыка, которые покрывают подавляющее большинство бытовых манипуляций:
1) REG — найти объект по описанию и указать на него точкой.
2) RRG — выбрать свободную область по относительному запросу, например «между чашкой и миской».
3) OFG — показать функциональную часть объекта, например рукоять ножа.
4) VTG — нарисовать упорядоченный визуальный след из точек, который задаёт понятный план движения, с обходом препятствий.
Важно, что след объект‑центричный, а не зависящий от конкретной руки или шарниров. Поэтому решение переносится между платформами.
В основе — компактная 3‑миллиардная VLM (на базе Qwen2.5‑VL), которая сперва рассуждает о сцене, затем выдаёт ответ: точку или траекторию. Она не генерирует низкоуровневые действия — этим занимается стандартный планировщик (например, CuRobo), которому на вход подаются ключевые точки захвата и размещения или траектория в 3D, восстановленная из 2D следа. Такой «средний язык» даёт две вещи: обобщаемость больших визуальных моделей и предсказуемость для роборуки.
Чтобы модель научилась не только понимать, но и указывать, собран масштабный набор Embodied‑Points‑200K: почти 200 тысяч проверяемых задач для REG, RRG, OFG и VTG. Дополнительно есть корпус пространственных вопросов, а также небольшой, но важный слой «здравого смысла», чтобы модель не забывала общий мир. Обучение [2] идёт в две стадии через RFT — обучение с подкреплением [3] по проверяемой обратной связи (вариант PPO под названием GRPO).
Стадия 1 усиливает пространственное мышление [4].
Стадия 2 учит указывать и рисовать следы, с многокомпонентными наградами: за формат ответа, попадание точки в маску, расстояние до цели, схожесть следа с эталоном и даже бинарный успех в симуляторе.
На 11 бенчмарках по пространственным задачам и указанию Embodied‑R1 задаёт планку среди открытых моделей при скромных 3B параметрах. В задачах REG/RRG/OFG/VTG она стабильно обходит специализированные системы (например, FSD и RoboPoint), а на VTG показывает лучшие ошибки [5] RMSE/MAE и оценку по LLM‑критерию. В симуляторе SIMPLEREnv модель достигает 56.2% успеха без дообучения, что выше сильных модульных и end‑to‑end альтернатив. В реальном мире — 87.5% успешности на восьми задачах с манипулятором XArm, причём прирост к сильным базовым линиям достигает 62%. Отдельно заметна устойчивость к шумам: смена фона, света и высоты камеры почти не рушит результат — указывание делает поведение [6] робота робастным.
Точки и следы — это компактный мост между восприятием [7] и действием.
RFT здесь критичен: обычное SFT часто «запоминает» формулы ответов и ломается вне распределения, тогда как обучение по награде учит модель принимать решение так, чтобы оно реально помогало роботу.
Embodied‑R1 шаг за шагом находит целевой объект, проверяет пространственные отношения («левее», «между», «ближе к»), выбирает аффорданс (например, ручку кружки), а затем выдаёт координаты или 8‑точечный след. Такой ход мыслей делает действия прозрачными и проверяемыми.
Модель уверенно переносится на новые среды: другие симуляторы, другую конфигурацию робота (даже двухрукого), и даже на схематичные рисунки от руки — там, где важна не текстура, а сама пространственная идея.
У указаний есть границы: 2D‑точки и следы не всегда хватит для тонкого силового контроля или работы с мягкими объектами; нужна связка с обучаемой policy в 3D. Ещё один шаг — длинные, многошаговые задачи: иерархический план, где верхний уровень делит цель на подпланы, а Embodied‑R1 указывает их на картинке. Наконец, более надёжная работа с глубиной и фузия RGB‑D сделают модель ещё точнее в сложной геометрии.
Проект: https://embodied-r1.github.io/ [8]
Код: https://github.com/pickxiguapi/Embodied-R1 [9]
Датасеты: https://huggingface.co/IffYuan [10]
Главная мысль проста: когда робот «понимает» через указание, он действует увереннее. Embodied‑R1 показывает, что такой язык — понятный людям и машинам — реально сокращает путь от «вижу» к «делаю».
****
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [11] – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18654
URLs in this post:
[1] зрением: http://www.braintools.ru/article/6238
[2] Обучение: http://www.braintools.ru/article/5125
[3] подкреплением: http://www.braintools.ru/article/5528
[4] мышление: http://www.braintools.ru/thinking
[5] ошибки: http://www.braintools.ru/article/4192
[6] поведение: http://www.braintools.ru/article/9372
[7] восприятием: http://www.braintools.ru/article/7534
[8] https://embodied-r1.github.io/: https://embodied-r1.github.io/
[9] https://github.com/pickxiguapi/Embodied-R1: https://github.com/pickxiguapi/Embodied-R1
[10] https://huggingface.co/IffYuan: https://huggingface.co/IffYuan
[11] подписывайтесь на мой Telegram-канал: https://t.me/+ldFzbPUB8l4wYWZi
[12] Источник: https://habr.com/ru/articles/940086/?utm_source=habrahabr&utm_medium=rss&utm_campaign=940086
Нажмите здесь для печати.