Секрет уверенного робота — в умении указывать

Роботы всё чаще видят мир камерой и читают наши текстовые инструкции. Но часто это «знание» не превращается в верное действие: модель понимает, что такое «чашка», но не знает, куда её ставить и как обойти соседние предметы. Этот разрыв между зрением ^[1] и действием называется seeing‑to‑doing gap. Команда Embodied‑R1 предлагает простую и неожиданно мощную идею: учить робота говорить на языке «указаний» — точек и визуальных следов на изображении. Такая точка или их последовательность напрямую якорит рассуждение в сцене: вот объект, вот функциональная часть, вот свободная область, а вот безопасная траектория. Представление получается независимым от конкретного робота и понятным как человеку, так и планировщику движения.

Фреймворк Embodied‑R1 для zero‑shot манипуляций роботом через «указание»: принимает визуальные и текстовые инструкции, выполняет явное рассуждение и генерирует визуальную траекторию как универсальную команду. Второй блок показывает комплексную оценку: пространственное рассуждение, бенчмарки указания и реальные задачи роботов.

Что именно умеет модель

Авторы обобщают «указание» в четыре базовых навыка, которые покрывают подавляющее большинство бытовых манипуляций:

1) REG — найти объект по описанию и указать на него точкой.
2) RRG — выбрать свободную область по относительному запросу, например «между чашкой и миской».
3) OFG — показать функциональную часть объекта, например рукоять ножа.
4) VTG — нарисовать упорядоченный визуальный след из точек, который задаёт понятный план движения, с обходом препятствий.

Важно, что след объект‑центричный, а не зависящий от конкретной руки или шарниров. Поэтому решение переносится между платформами.

Обзор четырёх воплощённых способностей указывать.

Как это устроено внутри

В основе — компактная 3‑миллиардная VLM (на базе Qwen2.5‑VL), которая сперва рассуждает о сцене, затем выдаёт ответ: точку или траекторию. Она не генерирует низкоуровневые действия — этим занимается стандартный планировщик (например, CuRobo), которому на вход подаются ключевые точки захвата и размещения или траектория в 3D, восстановленная из 2D следа. Такой «средний язык» даёт две вещи: обобщаемость больших визуальных моделей и предсказуемость для роборуки.

Где взялись данные и как обучали без магии

Чтобы модель научилась не только понимать, но и указывать, собран масштабный набор Embodied‑Points‑200K: почти 200 тысяч проверяемых задач для REG, RRG, OFG и VTG. Дополнительно есть корпус пространственных вопросов, а также небольшой, но важный слой «здравого смысла», чтобы модель не забывала общий мир. Обучение ^[2] идёт в две стадии через RFT — обучение с подкреплением ^[3] по проверяемой обратной связи (вариант PPO под названием GRPO).

Стадия 1 усиливает пространственное мышление ^[4].
Стадия 2 учит указывать и рисовать следы, с многокомпонентными наградами: за формат ответа, попадание точки в маску, расстояние до цели, схожесть следа с эталоном и даже бинарный успех в симуляторе.

Обзор обучающих данных: на этапе 1 улучшается пространственное мышление, на этапе 2 — навыки указания.

Что получилось на практике

На 11 бенчмарках по пространственным задачам и указанию Embodied‑R1 задаёт планку среди открытых моделей при скромных 3B параметрах. В задачах REG/RRG/OFG/VTG она стабильно обходит специализированные системы (например, FSD и RoboPoint), а на VTG показывает лучшие ошибки ^[5] RMSE/MAE и оценку по LLM‑критерию. В симуляторе SIMPLEREnv модель достигает 56.2% успеха без дообучения, что выше сильных модульных и end‑to‑end альтернатив. В реальном мире — 87.5% успешности на восьми задачах с манипулятором XArm, причём прирост к сильным базовым линиям достигает 62%. Отдельно заметна устойчивость к шумам: смена фона, света и высоты камеры почти не рушит результат — указывание делает поведение ^[6] робота робастным.

Процесс выполнения системой Embodied-R1 задач в реальном мире.

Процесс выполнения системой Embodied-R1 задачи при различных визуальных помехах.

Почему это работает

Точки и следы — это компактный мост между восприятием ^[7] и действием.

Они снимают «перевод» из абстрактного текста в геометрию сцены; одинаково понятны для разных роботов и планировщиков; хорошо оцениваются: можно автоматом проверить, попала ли точка в маску или совпал ли след.

RFT здесь критичен: обычное SFT часто «запоминает» формулы ответов и ломается вне распределения, тогда как обучение по награде учит модель принимать решение так, чтобы оно реально помогало роботу.

Как это выглядит глазами модели

Embodied‑R1 шаг за шагом находит целевой объект, проверяет пространственные отношения («левее», «между», «ближе к»), выбирает аффорданс (например, ручку кружки), а затем выдаёт координаты или 8‑точечный след. Такой ход мыслей делает действия прозрачными и проверяемыми.

Качественное сравнение Embodied‑R1 и SFT‑базы: цепочка рассуждений приводит к корректной траектории, тогда как SFT часто ошибается.

Выходит за рамки привычных сцен

Модель уверенно переносится на новые среды: другие симуляторы, другую конфигурацию робота (даже двухрукого), и даже на схематичные рисунки от руки — там, где важна не текстура, а сама пространственная идея.

Тесты VTG в новых сценариях: симуляторы, другой робот и рисунки от руки — модель рассуждает об объектах и строит разумные следы.

Куда движемся дальше

У указаний есть границы: 2D‑точки и следы не всегда хватит для тонкого силового контроля или работы с мягкими объектами; нужна связка с обучаемой policy в 3D. Ещё один шаг — длинные, многошаговые задачи: иерархический план, где верхний уровень делит цель на подпланы, а Embodied‑R1 указывает их на картинке. Наконец, более надёжная работа с глубиной и фузия RGB‑D сделают модель ещё точнее в сложной геометрии.

Хочется попробовать?

Проект: https://embodied-r1.github.io/ ^[8]

Код: https://github.com/pickxiguapi/Embodied-R1 ^[9]

Датасеты: https://huggingface.co/IffYuan ^[10]

Главная мысль проста: когда робот «понимает» через указание, он действует увереннее. Embodied‑R1 показывает, что такой язык — понятный людям и машинам — реально сокращает путь от «вижу» к «делаю».

****

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал ^[11] – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник ^[12]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18654

URLs in this post:

[1] зрением: http://www.braintools.ru/article/6238

[2] Обучение: http://www.braintools.ru/article/5125

[3] подкреплением: http://www.braintools.ru/article/5528

[4] мышление: http://www.braintools.ru/thinking

[5] ошибки: http://www.braintools.ru/article/4192

[6] поведение: http://www.braintools.ru/article/9372

[7] восприятием: http://www.braintools.ru/article/7534

[8] https://embodied-r1.github.io/: https://embodied-r1.github.io/

[9] https://github.com/pickxiguapi/Embodied-R1: https://github.com/pickxiguapi/Embodied-R1

[10] https://huggingface.co/IffYuan: https://huggingface.co/IffYuan

[11] подписывайтесь на мой Telegram-канал: https://t.me/+ldFzbPUB8l4wYWZi

[12] Источник: https://habr.com/ru/articles/940086/?utm_source=habrahabr&utm_medium=rss&utm_campaign=940086

Нажмите здесь для печати.