- BrainTools - https://www.braintools.ru -

Сегодня многие ИИ-агенты остаются реактивными: видят кадр — действуют, видят следующий — снова действуют, а связной картины мира не формируют. Отсюда проблемы с дальними маршрутами, переиспользованием опыта [1] и гибкостью. В биологии это решено элегантно: мозг [2] хранит ориентиры, маршрутное знание и обзорные карты. Работа BSC-Nav предлагает перенести этот принцип в роботов и дать им настоящую когнитивную карту, чтобы навигация стала осмысленной, а не сиюминутной.
BSC-Nav — это каркас памяти, вдохновленный работой человеческого мозга, с тремя уровнями:
Память ориентиров: редкие, но надёжные ассоциации [5] «подсказка—координаты» с описанием и степенью уверенности.
Когнитивная карта: воксельное представление пространства, куда аккуратно ложатся признаки из разных ракурсов и моментов времени.
Рабочая память: умный микс нужных фрагментов под текущую цель с последующим планированием.
Чтобы видеть мир, система использует DINOv2 для визуальных признаков и детектор для объектов, а LLM помогает связать семантику запроса с тем, что есть в памяти. Ключевой этап — обновление карты по принципу сюрприза: в память попадает не всё подряд, а только новое и полезное. Это экономит место и повышает устойчивость.
Для простых целей уровня категории (например, «пойди к столу») достаточно заглянуть в память ориентиров и быстро выдать координаты. Для более тонких запросов («круглый диван со светлой подушкой») система сперва расширяет текст описанием атрибутов, воображает визуальные прототипы через диффузионную модель и ищет соответствия в плотных визуальных признаках когнитивной карты. На выходе — несколько мест с оценкой уверенности и расстояния. Куда идти первым? BSC-Nav ранжирует кандидатов по комбинированному приоритету «уверенность + близость», что сильно экономит шаги. На низком уровне — надёжные планировщики и верификация цели.
Авторы прогнали 8+ тысяч эпизодов в Habitat на MP3D (классический датасет сканов помещений в жилых и офисных пространствах) и HM3D (новый и более масштабный набор сцен для симулятора Habitat, сложнее и разнообразнее MP3D) и сравнивались с сильными end-to-end и модульными базовыми подходами. В задачах к категориям BSC-Nav достигает 78.5% успеха на HM3D и 56.5% на MP3D, заметно обгоняя конкурентов. На уровне экземпляров система почти вдвое поднимает метрику успеха в Text-Instance и берёт 71.4% в Image-Instance, что на 11.4% больше ближайшего аналога. Эффективность маршрута стабильно выше за счёт грамотного ранжирования кандидатов: цели часто берутся с первого захода.
BSC-Nav уверенно выходит за рамки просто дойти до цели. В долгих инструкциях по естественному языку модель разлагает задачу на цепочку опорных точек и идёт по ним. На VLN-CE R2R (задание для робота пройти в новой 3D-сцене из точки A в точку B, используя текстовую инструкцию) это 38.5% успеха при рекордной эффективности 53.1%. В активном воплощённом ответе на вопросы система набирает 54.6 по метрике LLM-Match и особенно хороша там, где нужно увязать ориентиры и пространственный контекст.
Команда поставила систему на мобильного робота и проехала по двум этажам. В 75 эпизодах с разными целями BSC-Nav держала минимум 3 успешные попытки из 5, а для задач по изображению — на четырёх из пяти целей успех доходил до 100%. Средняя скорость — 0.76 м/с, финальная дистанция после остановки — менее 2.5 м. Поверх навигации робот выполнял простые манипуляции: хват, перенос, размещение. В демо — робот даже готовит завтрак из нескольких ингредиентов с чередованием движения и действий.
Главное достижение BSC-Nav — переход от реактивных политик к многоуровневому пространственному мышлению [6]. Память ориентиров даёт быстрое семантическое запоминание [7], когнитивная карта — крепкий «скелет» мира, рабочая память — гибкую сборку знаний под задачу. Идея «сюрприза» делает хранилище компактным, а воксельные буферы бережно собирают редкие, но важные виды сцен. В результате агент мысленно видит не только «что» и «где», но и «как туда лучше попасть сейчас».
Есть и задел на будущее: динамичные и более хаотичные пространства, экономия памяти, командная работа нескольких агентов, новые сенсоры. Но уже сейчас BSC-Nav показывает, как биологические принципы можно превратить в масштабируемый путь к общему пространственному интеллекту для воплощённых систем.
📜 Полная статья [8]
🎥 Видео [9]
***
Если вам интересна тема ИИ, [10]подписывайтесь на мой Telegram-канал [11] – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19056
URLs in this post:
[1] опыта: http://www.braintools.ru/article/6952
[2] мозг: http://www.braintools.ru/parts-of-the-brain
[3] интеллекта: http://www.braintools.ru/article/7605
[4] памяти: http://www.braintools.ru/article/4140
[5] ассоциации: http://www.braintools.ru/article/621
[6] мышлению: http://www.braintools.ru/thinking
[7] запоминание: http://www.braintools.ru/article/722
[8] 📜 Полная статья: https://arxiv.org/abs/2508.17198
[9] 🎥 Видео: https://drive.google.com/drive/folders/1p1GjpQMQQ-ylmazhjPgqT49AUOcUT3Z-
[10] : https://t.me/+mP35nQPhgXZmZDYy
[11] подписывайтесь на мой Telegram-канал: https://t.me/+1IPriIpThUUyMzli
[12] Источник: https://habr.com/ru/articles/943512/?utm_source=habrahabr&utm_medium=rss&utm_campaign=943512
Нажмите здесь для печати.