
Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.
1. Введение в проблему
Современные ИИ-модели успешно справляются со сложными задачами, такими как математические вычисления или написание кода. Однако когда дело доходит до видеоигр, они сталкиваются с рядом серьезных трудностей:
-
Необходимость сочетать визуальное восприятие и пространственное мышление.
Видеоигры требуют не только анализа текста или чисел, но и понимания динамичных визуальных сцен, расположения объектов и быстрого принятия решений.
-
Высокая задержка (latency) при принятии решений.
Современные визуально-языковые модели (VLM) часто медленно реагируют на изменения в игре. Задержка между получением изображения и выдачей команды становится критичной в условиях реального времени.
-
Разнообразие игровых механик.
Разные жанры игр (шутеры, платформеры, стратегии и другие) предъявляют разные требования к моделям, требуя от них универсальности и способности быстро адаптироваться.
Таким образом, существует острая необходимость в создании специального тестового окружения, которое позволит объективно оценивать возможности современных моделей в реальных игровых сценариях.
Ни одна из представленных ниже нейросетей не прошла даже первый уровень в Doom:
2. Цель исследования
Основная цель авторов – новый бенчмарк VideoGameBench, который позволит:
-
Комплексно оценить способности VLM-агентов играть в настоящие видеоигры, используя только визуальную информацию (скриншоты) и минимальный интерфейс управления.
-
Создать мультиплатформенную среду, включающую как старые консольные игры (например, Game Boy), так и классические игры для MS-DOS, чтобы обеспечить разнообразие игровых механик и визуальных стилей.
-
Предложить два режима работы: обычный (игра в реальном времени) и режим «Lite» (игра останавливается, пока модель принимает решение), что позволяет обойти проблему задержки реакции модели.
Таким образом, исследователи стремятся создать основу для будущих экспериментов и разработки более продвинутых агентов, способных эффективно планировать действия в динамичных игровых условиях.
3. Методы исследования
Авторы статьи описывают следующие ключевые подходы и методы:
-
Единая среда для 20 различных игр.
Бенчмарк включает игры разных жанров и платформ (Game Boy и MS-DOS). Агент получает только изображения (скриншоты) и может отправлять команды в виде нажатий клавиш или кликов мышью.
-
Абстрагирование от технических деталей эмуляции.
Используются эмуляторы PyBoy и DOSBox, при этом модели не предоставляется дополнительная игровая информация (например, текстовые подсказки или игровые маски).
-
Режим VideoGameBench-Lite.
В этом режиме игра ставится на паузу, пока модель принимает решение, что позволяет избежать проблем с задержкой реакции и дает агенту время на обдумывание сложных действий.
Игра ставится на паузу, чтобы ИИ-агент подумал:
-
Базовый агент VideoGameAgent.
Для демонстрации возможностей авторы разработали базового агента, который использует подход ReAct с памятью. Агент анализирует последовательности скриншотов и выдает команды для управления игрой.
-
Качественная оценка работы агента.
Авторы подробно описывают проблемы, возникшие при тестировании: например, неверное распознавание игровых объектов (путаница между живыми и убитыми врагами) и неточности в управлении (неправильное позиционирование курсора).
4. Результаты исследования
Первые эксперименты показали следующее:
-
Модели пока не справляются даже с начальными уровнями некоторых игр.
Даже мощные модели, такие как GPT-4o или Claude Sonnet 3.7, испытывают серьезные трудности, что подчеркивает большой разрыв между текущими возможностями VLM и требованиями реальных игровых задач.
-
Проблемы с интерпретацией визуальной информации.
Модели часто неправильно оценивают игровую ситуацию, что приводит к неэффективным действиям (например, ненужному расходу патронов или неправильной навигации).
-
Высокая задержка реакции (latency) остается серьезной проблемой.
Время реакции моделей (до 3-5 секунд) критически влияет на их эффективность в реальном времени. Режим Lite частично решает эту проблему, но вопрос адаптации моделей к динамичным условиям остается открытым.
-
Разнообразие игровых механик усложняет задачу.
Каждая игра предъявляет свои уникальные требования к пространственному мышлению и точности действий – от управления мышью в стратегиях до быстрой реакции в шутерах.
5. Выводы и перспективы
-
Современные VLM пока ограниченно справляются с задачами управления реальными видеоиграми, используя только визуальную информацию.
-
Основные проблемы – это ошибки интерпретации визуальных данных и высокая задержка реакции, что требует дальнейших исследований в области планирования и оперативного принятия решений.
-
VideoGameBench представляет собой универсальную и гибкую платформу, которая может стать эффективным инструментом для оценки и развития мультимодальных агентов.
-
Дальнейшее развитие методов памяти и планирования позволит агентам адаптироваться к динамическим условиям.
-
Также бенчмарк можно расширять, добавления в него новых игр.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist