Vision Language World Model: язык как картина мира. llm.. llm. vlm.. llm. vlm. агенты.. llm. vlm. агенты. ИИ.. llm. vlm. агенты. ИИ. искусственный интеллект.. llm. vlm. агенты. ИИ. искусственный интеллект. Машинное обучение.
Vision Language World Model: язык как картина мира - 1

Когда мы просим машину помочь нам приготовить обед или заменить SIM‑карту, она должна не просто распознать предметы в кадре, а представить, как мир будет меняться от шага к шагу. Пока большинство систем видят пиксели и отвечают короткими фразами, планирование на длинном горизонте всё ещё не работает. Команда VLWM (Vision Language World Model) предлагает другой путь: описывать будущее словами и оперировать не кадрами, а смыслами. Их работа — про то, как собрать воедино зрение, язык и рассуждение так, чтобы агенты уверенно шли к цели.

Обзор VLWM: (a) JEPA‑модель мира, предсказывающая абстрактные будущие состояния вместо шумных и объёмных сырых наблюдений; (b) по видеоконтексту целится в структурированное текстовое описание ненаблюдаемого будущего — цель, перемежающиеся действия (A) и изменения состояния (ΔS), извлекаемые автоматически; (c) выводит возможные цели, интерпретирует их с учётом текущего начального и ожидаемого конечного состояния; поддерживает быстрый реактивный план System‑1 и рефлексивное рассуждение System‑2 на основе минимизации стоимости.
Обзор VLWM: (a) JEPA‑модель мира, предсказывающая абстрактные будущие состояния вместо шумных и объёмных сырых наблюдений; (b) по видеоконтексту целится в структурированное текстовое описание ненаблюдаемого будущего — цель, перемежающиеся действия (A) и изменения состояния (ΔS), извлекаемые автоматически; (c) выводит возможные цели, интерпретирует их с учётом текущего начального и ожидаемого конечного состояния; поддерживает быстрый реактивный план System‑1 и рефлексивное рассуждение System‑2 на основе минимизации стоимости.

Главная мысль проста: вместо тяжёлой генерации будущих кадров модель мира работает в языковом пространстве. Она смотрит на видео, формулирует достижимую цель, а затем предсказывает траекторию — чередования действий и изменений состояния. Такой план компактен, прозрачен и легко проверяется другими языковыми моделями. А еще он дешевле вычислительно: текст масштабируется лучше, чем массивы пикселей.

Как достичь этого на реальных, длинных и шумных видео? Авторы сжали исходный поток в дерево подписей — иерархическое представление, где длинный ролик раскладывается на смысловые сегменты с краткими описаниями. Это резко уменьшает объём данных и освобождает ресурсы для рассуждения о будущем. Затем большой языковой моделью по схеме self‑refine из этих подписей извлекаются четыре ключевых компонента: цель, её интерпретация в терминах начального и желаемого состояния, исполнимые шаги и изменения мира после каждого шага. Итеративное улучшение помогает убрать неточности и сделать план связным.

Структура дерева подписей (внизу), извлечённых из видео (вверху). Каждый блок соответствует подписи к видео.

Структура дерева подписей (внизу), извлечённых из видео (вверху). Каждый блок соответствует подписи к видео.

Далее вступает в игру собственно модель мира VLWM. Её учат предсказывать последовательность из пары: действие и изменение состояния. Это позволяет работать в двух режимах. Быстрый, реактивный режим — просто сгенерировать план целиком и выполнить. И более вдумчивый — перебрать несколько кандидатов, «прокрутить» будущее внутри модели, оценить, насколько предсказанные состояния приближаются к цели, и выбрать путь с минимальной стоимостью. Стоимость считает отдельный критик: небольшая языковая модель, самостоятельно обученная на ранжировании хороших и плохих продолжений.

Планирование System-2 в VLWM: (a) критик обучается самосупервизируемо, снижая стоимость за валидный прогресс и повышая — за нерелевантные отвлекающие элементы или перестановку шагов; (b) VLWM генерирует кандидатные последовательности действий и симулирует будущие переходы состояний, критик оценивает траектории относительно цели, а планировщик выбирает план с минимальной стоимостью.

Планирование System-2 в VLWM: (a) критик обучается самосупервизируемо, снижая стоимость за валидный прогресс и повышая — за нерелевантные отвлекающие элементы или перестановку шагов; (b) VLWM генерирует кандидатные последовательности действий и симулирует будущие переходы состояний, критик оценивает траектории относительно цели, а планировщик выбирает план с минимальной стоимостью.

Результаты внушают доверие. На бенчмарке Visual Planning for Assistance у VLWM новый лучший результат по всем основным метрикам, причём модель 8B обходит более крупные системы. В человеческом сравнении PlannerArena люди заметно чаще выбирают планы с рефлексивным поиском: режим System‑2 даёт примерно на 27% больше рейтинга Elo по сравнению с быстрым декодированием. Это признак того, что внутренний перебор и оценка стоимости действительно помогают избегать ошибок и нелепых шагов.

Иллюстрация интерфейса аннотирования PlannerArena.
Иллюстрация интерфейса аннотирования PlannerArena.

Критик — не просто вспомогательная деталь. В задачах обнаружения момента достижения цели он уверенно превосходит стандартные модели семантического сходства, а на задачах процедурного планирования WorldPrediction‑PP ставит новый рекорд точности. Самое важное — хорошая функция вознаграждения.

Кривые стоимости, оценённые различными моделями-критиками. Каждый график показывает 3 тыс. кривых на траекториях обнаружения достижения цели, где каждая траектория состоит из эталонного «золотого» плана (0%–100%) и отвлекающих шагов (100%–200%). Красные точки отмечают шаги с минимальной стоимостью (моменты достижения цели). VLWM-Critic точно фиксирует завершение цели около 100% длины плана, тогда как базовые модели показывают субоптимальное или шумное поведение.

Кривые стоимости, оценённые различными моделями-критиками. Каждый график показывает 3 тыс. кривых на траекториях обнаружения достижения цели, где каждая траектория состоит из эталонного «золотого» плана (0%–100%) и отвлекающих шагов (100%–200%). Красные точки отмечают шаги с минимальной стоимостью (моменты достижения цели). VLWM-Critic точно фиксирует завершение цели около 100% длины плана, тогда как базовые модели показывают субоптимальное или шумное поведение.
Результаты WorldPrediction-PP: VLWM-critic-1B установил новый SoTA с точностью 45,4%.

Результаты WorldPrediction-PP: VLWM-critic-1B установил новый SoTA с точностью 45,4%.

Важно и то, как всё это масштабируется. Обучение шло на сотнях тысяч инструктивных и эгоцентричных видео (видео от первого лица), а дерево подписей позволило ужать терабайты в сотни мегабайт текста. Такой подход естественно сочетается с экосистемой больших языковых моделей и мультимодальных моделей, поэтому дальнейшее улучшение восприятия или рассуждения можно получать без пересборки всей системы.

Есть и ограничения. Языковая абстракция иногда теряет тонкие пространственные детали; качество сильно зависит от корректности подписей и извлечённых планов. Актор и критик должны быть сбалансированы: слишком агрессивный поиск замедлит реакцию, слишком быстрый — снизит надёжность. Но в сумме это выглядит как трезвый компромисс между скоростью и вдумчивостью.

VLWM показывает, что предсказывать будущее не обязательно в пикселях. Описывая мир словами и кодируя его состояние как цепочку действий и изменений, можно совместить восприятие, рассуждение и планирование. Это шаг от имитации к агентам, которые умеют подумать, проверить гипотезы внутри своей модели мира и выбрать разумный путь — даже в длинных и запутанных сценариях.

📜 Полная статья


Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник

Rambler's Top100