
Сегодня поговорим о том, как роботы работают с предметами в реальной жизни. Современные роботы умеют выполнять множество простых операций, но терпят катастрофический провал в задачах, требующих понимания трехмерных пространственных отношений и физической осуществимости действий. Попробуем разобраться, как с помощью vision-language models (VLM) роботы учатся работать с предметами в пространстве.
Пропасть между зрением и действием
Для начала давайте обозначим проблематику. Представьте, что вы просите робота взять кружку с полки. Для человека эта задача тривиальна — мозг автоматически вычисляет расстояние до кружки, оптимальную траекторию руки, силу захвата для удержания гладкой поверхности и учитывает, что кружка стоит за чайником, поэтому сначала нужно убрать чайник. Для современного робота, оснащенного самой передовой Vision-Language Model, эта задача остается исключительно сложной.
Почему так происходит? Потому что модели VLM, которые сегодня считаются золотым стандартом для встраиваемых систем ИИ, демонстрируют фундаментальную слабость. Они отлично отвечают на вопросы вида «какого цвета эта кружка?» или «это чашка или стакан?», но почти не способны ответить на вопросы: «Могу ли я захватить эту кружку, не задев стоящий рядом чайник?», «Какой участок поверхности наиболее устойчив для постановки этой коробки?» или «Как изменится вид объекта, если я перейду в другую точку обзора?».

Последние исследования систематически подтверждают этот разрыв. Сравнительный анализ современных VLM на бенчмарке PhyBlock (задачи физического планирования с трехмерными блоками) показал катастрофическое падение точности при переходе от простых сценариев к сложным — более чем вдвое. При этом на низкоуровневых вопросах о цвете или форме модели демонстрировали высокие результаты, а их точность на вопросах о пространственных зависимостях и физической устойчивости стремилась к нулю. Авторы исследования выделили два универсальных типа ошибок: неверная оценка ориентации блоков и игнорирование зависимостей поддержки, необходимых для стабильности конструкции. Важно, что включение режима «цепочки рассуждений» в более крупных моделях практически не изменило этих ошибок — генерация большего количества текстовых токенов сама по себе не компенсирует отсутствие физических знаний.
Другое масштабное исследование на бенчмарке SpinBench выявило систематические слабости, которые авторы назвали «эгоцентрическим смещением» и «плохим пониманием вращений». Модели демонстрируют высокую точность при оценке сцен с привычной точки обзора, но начинают ошибаться, когда требуется мысленно повернуть объект или представить сцену с другой перспективы или под другим углом освещения.

При этом люди выполняют те же задачи с точностью 91,2%, что подчеркивает: проблема не в принципиальной нерешаемости задач пространственного рассуждения, а в том, как современные VLM обрабатывают пространственную информацию.
Парадокс усугубляется тем, что производители робототехнических систем все чаще устанавливают на платформы несколько камер. Многокамерные конфигурации предоставляют дополнительные ракурсы, которые должны были бы помочь в разрешении неоднозначностей и уменьшении проблем с окклюзией. Однако, как показал бенчмарк MV-RoboBench (более 1700 вручную отобранных пар «вопрос-ответ» по восьми пространственным подзадачам), современные VLM не умеют эффективно интегрировать информацию из нескольких видов. Их производительность на многовидовых сценах остается значительно ниже человеческой.
Именно в этой точке — между распознаванием и пониманием, между двухмерным зрением и трехмерным действием — возникает необходимость в платформе с расширенным поиском. Недостаточно просто научить модель смотреть. Нужно дать ей механизм для активного извлечения пространственных знаний, которые отсутствуют в ее параметрической памяти, но критически важны для успешной манипуляции.
Архитектура платформы с расширенным поиском
Платформа с расширенным поиском для пространственной ориентации VLM строится вокруг взаимосвязанных компонентов, каждый из которых решает специфическую подзадачу.
Прежде всего это структурированная 3D-база знаний объектов. Она содержит не просто названия или категории, а детальную информацию, необходимую для планирования манипуляций: трехмерные геометрии объектов, данные об устойчивых конфигурациях постановки (как объект может быть размещен на различных поверхностях, какие его стороны являются плоскими и пригодными для опоры) и, что особенно важно, сведения об аффордансах захвата — зонах поверхности, за которые объект может быть надежно взят, с указанием типа захвата (силовой, щипковый, с использованием присоски) и необходимых параметров усилия.

Эта база знаний не статична. Она должна поддерживать эффективный поиск по различным критериям: по имени объекта, геометрической форме, типу аффорданса, сходству с другими объектами. Критическое требование — база должна хранить не только сами геометрические данные, но и их векторные представления, позволяющие выполнять семантический поиск по визуальному сходству. Когда VLM видит незнакомый объект, она должна иметь возможность найти в базе геометрически близкий эталон, к которому можно применить аналогичные стратегии манипуляции.
Следующий компонент — механизм поиска с временно-пространственным контекстом. В отличие от классического поиска информации по текстовым запросам, роботизированная платформа должна учитывать, что координаты объекта и его визуальное представление меняются по мере движения робота. Механизм поиска получает от VLM не только запрос типа «найти мне объект с ручкой, которую можно захватить сверху», но и текущую пространственную информацию: положение камеры, расстояние до предполагаемого объекта, угол обзора.
Технически этот компонент может быть реализован как слой над векторной базой данных, который перед выполнением поиска преобразует запрос и/или индексированные данные в соответствии с текущей пространственной перспективой. Например, если VLM видит кружку сбоку и ищет в базе информацию о ее аффордансах, механизм поиска должен извлечь не только общее описание, но и рассчитать, как ожидаемая точка захвата проецируется на текущее изображение. Этот компонент также отвечает за фильтрацию результатов на основе физической осуществимости: если захват требует подхода сверху, а робот физически не может поднять руку выше объекта (например, из-за ограничения рабочего пространства или наличия препятствия), такой результат должен быть либо отброшен, либо помечен как невыполнимый с указанием причины.
И наконец, главный компонент — слой согласования, связывающий рассуждения VLM с поиском. Его можно назвать самой важной частью архитектуры, так как VLM, лишенная доступа к специализированным инструментам, будет гадать или генерировать заведомо невыполнимые планы. Задача слоя согласования — предоставить модели интерфейс для запроса пространственной информации в процессе планирования.
Архитектурный паттерн, доказавший свою эффективность в смежных задачах, — подход, реализованный в системах типа ReMEmbR от NVIDIA. В этом подходе VLM действует как агент, который в процессе рассуждения может вызывать специализированные инструменты: поиск по визуальным данным, поиск по текстовым описаниям, обрезку изображений для фокусировки на области интереса, коррекцию перспективы. Слой согласования транслирует вызов инструмента от VLM в запрос к структурированной 3D-базе знаний, а результат поиска возвращает модели в формате, который может быть интерпретирован в контексте текущего плана.

Особенность предлагаемой платформы в том, что инструменты, доступные VLM, включают не только классические поисковые операции, но и специфические для роботизированной манипуляции. Например, инструмент query_grasp(object_id, approach_direction) возвращает координаты оптимальных точек захвата для заданного объекта при заданном направлении подхода. Инструмент query_stable_poses(object_id, surface_type) возвращает список устойчивых конфигураций постановки объекта на поверхность указанного типа. Эти инструменты являются программными обертками над структурированной базой знаний и выполняют необходимые геометрические вычисления «под капотом», возвращая VLM только итоговые, готовые к использованию данные.
Процесс планирования с расширенным поиском
Теперь, когда архитектура описана, давайте проследим, как платформа с расширенным поиском обрабатывает типичную задачу объектно-ориентированной манипуляции. Рассмотрим сценарий: робот получает команду «поставь красную кружку на полку слева от чайника».
Этап первый — восприятие и сегментация сцены.
Робот активирует все доступные камеры, получая многовидовое представление сцены. VLM обрабатывает эти виды, идентифицирует объекты и их пространственные отношения, насколько это возможно. Однако на этом этапе модель уже сталкивается с ограничениями своего пространственного понимания. Вместо того чтобы пытаться построить полную трехмерную модель сцены самостоятельно, VLM формирует запрос к платформе: она определяет, для каких объектов и отношений у нее недостаточно информации. Например, она может быть уверена, что красный объект — это кружка, но не понимать, какова ее форма относительно захвата. Или может видеть, что чайник стоит справа от кружки, но не понимать, можно ли пронести кружку мимо него, не задев ручку чайника.
Этап второй — итеративный поиск пространственной информации.
VLM, действуя как агент, начинает последовательно вызывать инструменты платформы. Она вызывает query_grasp(circle, top) для оценки возможности захвата кружки сверху. Платформа обращается к структурированной базе, извлекает геометрию кружки и вычисляет, что верхняя кромка кружки имеет диаметр, подходящий для щипкового захвата, а внутренняя поверхность обеспечивает хорошее трение. Результат возвращается с координатами целевых точек в системе координат робота.

Затем VLM вызывает query_stable_poses(circle, shelf_surface) для определения того, как кружка может быть устойчиво размещена на полке. База знаний возвращает, что стандартная устойчивая поза кружки — дном вниз и что эта поза требует вертикального подхода при постановке.
На следующем шаге VLM сталкивается с вопросом о пространственном конфликте: не заденет ли кружка чайник при перемещении? Она вызывает инструмент check_collision(current_position, target_position, object_geometry, environment_geometry). Платформа, используя данные о геометрии чайника из базы знаний и текущие позы объектов из восприятия, выполняет приблизительную проверку на коллизию.
Этап третий — генерация и верификация плана.
Имея всю собранную информацию, VLM формирует детализированный план действий с явными пространственными спецификациями. План выглядит не как «взять кружку», а как последовательность микро-действий: переместить захват в координаты (x1, y1, z1) с ориентацией (roll1, pitch1, yaw1), выполнить захват с силой F1, поднять объект на высоту H над поверхностью полки, переместить его по траектории, избегающей пространство вокруг чайника, опустить в целевые координаты (x2, y2, z2), разжать захват. Каждый шаг плана содержит параметры, численно определенные на основе извлеченных из базы знаний аффордансов и геометрических расчетов.
Перед выполнением платформа может дополнительно верифицировать его выполнимость, используя более детальную симуляцию или обращаясь к другим компонентам системы (например, к контроллеру низкого уровня для проверки достижимости целевых точек в кинематике робота).
Этап четвертый — исполнение и адаптация.
Во время выполнения робот может столкнуться с неожиданностями: неописанный ранее объект слегка сдвинулся, освещение изменилось, захват проскальзывает. Платформа с расширенным поиском поддерживает итеративный цикл: при обнаружении расхождения между ожидаемым и фактическим состоянием VLM может инициировать новые поисковые запросы, например, query_alternative_grasp(circle, changed_conditions) для поиска альтернативной стратегии захвата при скольжении.
Этот цикл — восприятие, формулировка запроса, поиск, планирование, исполнение, повторное восприятие — коренным образом отличается от статического подхода, при котором план генерируется один раз на основе ограниченной информации. Динамический поиск пространственных знаний позволяет роботу адаптироваться и, что более важно, обучаться: успешные стратегии манипуляции могут быть добавлены обратно в базу знаний, расширяя ее для будущих задач. Это создает положительную обратную связь, где каждый успешный манипуляционный эпизод повышает компетентность системы.
Другие исследования
Представленная платформа не является изолированным решением — она вписывается в более широкий тренд, наблюдаемый в современных исследованиях в области встраиваемых систем искусственного интеллекта.
Работа CUHK по методу Retrieval-augmented Manipulation (RAM) демонстрирует ту же фундаментальную идею: эффективное планирование манипуляций требует, чтобы VLM отвечала одновременно на два вопроса — какое действие выполнить на каждом шаге и как это действие может быть физически реализовано в трехмерном пространстве. Исследователи построили структурированную 3D-базу знаний объектов, каталогизирующую геометрические параметры, устойчивые конфигурации постановки и аффордансы захвата для широкого спектра бытовых объектов. В их экспериментах RAM позволила роботам успешно выполнять 14 задач манипуляции, требующих пространственного восприятия, с 31 различным объектом, точно следуя пространственным языковым инструкциям и адаптивно манипулируя в зависимости от физического контекста сцены.

С другой стороны, подходы, развиваемые в области поисковых агентов (таких как SenseNova-MARS и OpenSearch-VL), показывают, что наделение VLM способностью активно запрашивать информацию через специализированные инструменты кардинально улучшает их производительность на сложных задачах. OpenSearch-VL, использующий агентное усиленное обучение с обратной связью в многошаговых сценариях применения инструментов, превосходит соответствующие базовые модели в среднем более чем на 10 пунктов по семи бенчмаркам. Хотя эти работы сосредоточены на информационных запросах (поиск изображений, текста, веб-страниц), их архитектурный паттерн — VLM как агент, вызывающий инструменты в цикле рассуждения — напрямую применим и к манипуляционным задачам.
Платформа с расширенным поиском, описанная в этой статье, синтезирует эти два направления: базу знаний из RAM и агентный интерфейс из OpenSearch-VL, адаптированный для пространственных и манипуляционных запросов. VLM получает доступ не к универсальным поисковым системам, а к специализированным инструментам, возвращающим геометрически и физически обоснованные данные, необходимые для планирования действий в реальном мире.
Но это только начало, и есть открытые вызовы. Как масштабировать базу знаний для тысяч объектов, не делая поиск непозволительно медленным? Как обучать VLM эффективно использовать эти инструменты без огромных объемов демонстрационных данных, которых в робототехнике всегда не хватает? Как обеспечить безопасность системы, когда VLM, не обладающая полным пониманием физики, генерирует запросы, которые могут привести к небезопасным действиям? Однако фундаментальный сдвиг уже произошел: индустрия признает, что путь к автономным манипуляциям лежит не через создание одной модели, которая знает все, а через создание систем, которые умеют искать то, чего не знают.
Главный вывод: симбиоз нейросетей и геометрии
Современные Vision-Language Models достигли впечатляющих результатов в распознавании и категоризации объектов, но их пространственный интеллект остается на удивление примитивным. Они не понимают, как объект может быть захвачен, куда он может быть устойчиво поставлен и как его перемещение повлияет на окружающие объекты. Этот разрыв между двухмерным зрением и трехмерным действием — главное препятствие на пути к по-настоящему автономным роботам-манипуляторам.
Платформа с расширенным поиском предлагает путь, который не требует ожидания появления «идеальной VLM», способной выучить всю физику мира из одних только изображений. Вместо этого она дает модели доступ к структурированной базе знаний о геометрии и аффордансах объектов через интерфейс специализированных инструментов. VLM остается тем, чем она хороша, — генератором планов и рассуждений на высоком уровне, а вычисление пространственных параметров действия делегируется надежным, проверяемым геометрическим алгоритмам.
Такой гибридный подход — нейросетевое планирование плюс символическое геометрическое вычисление — не только более реалистичен для внедрения сегодня, но и более безопасен. Когда VLM запрашивает «найди точку захвата сверху для кружки», ответ приходит не из черного ящика нейронной сети, а из верифицируемого расчета по трехмерной модели. Это делает систему более прозрачной и предсказуемой — качества, которые критически важны, когда речь идет о физическом взаимодействии с реальным миром.
Будущее роботизированных манипуляций — не в замене инженерного знания нейронными весами, а в умной интеграции того и другого. Платформа с расширенным поиском — один из первых шагов в этом направлении.
Автор: k0mar0v


