VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?. llm.. llm. vlm.. llm. vlm. игры.. llm. vlm. игры. ИИ.. llm. vlm. игры. ИИ. искусственный интеллект.. llm. vlm. игры. ИИ. искусственный интеллект. Машинное обучение.

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого? - 1

Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.

1. Введение в проблему

Современные ИИ-модели успешно справляются со сложными задачами, такими как математические вычисления или написание кода. Однако когда дело доходит до видеоигр, они сталкиваются с рядом серьезных трудностей:

Необходимость сочетать визуальное восприятие и пространственное мышление.

Видеоигры требуют не только анализа текста или чисел, но и понимания динамичных визуальных сцен, расположения объектов и быстрого принятия решений.
Высокая задержка (latency) при принятии решений.

Современные визуально-языковые модели (VLM) часто медленно реагируют на изменения в игре. Задержка между получением изображения и выдачей команды становится критичной в условиях реального времени.
Разнообразие игровых механик.

Разные жанры игр (шутеры, платформеры, стратегии и другие) предъявляют разные требования к моделям, требуя от них универсальности и способности быстро адаптироваться.

Таким образом, существует острая необходимость в создании специального тестового окружения, которое позволит объективно оценивать возможности современных моделей в реальных игровых сценариях.

Ни одна из представленных ниже нейросетей не прошла даже первый уровень в Doom:

2. Цель исследования

Основная цель авторов – новый бенчмарк VideoGameBench, который позволит:

Комплексно оценить способности VLM-агентов играть в настоящие видеоигры, используя только визуальную информацию (скриншоты) и минимальный интерфейс управления.
Создать мультиплатформенную среду, включающую как старые консольные игры (например, Game Boy), так и классические игры для MS-DOS, чтобы обеспечить разнообразие игровых механик и визуальных стилей.
Предложить два режима работы: обычный (игра в реальном времени) и режим «Lite» (игра останавливается, пока модель принимает решение), что позволяет обойти проблему задержки реакции модели.

Таким образом, исследователи стремятся создать основу для будущих экспериментов и разработки более продвинутых агентов, способных эффективно планировать действия в динамичных игровых условиях.

3. Методы исследования

Авторы статьи описывают следующие ключевые подходы и методы:

Единая среда для 20 различных игр.

Бенчмарк включает игры разных жанров и платформ (Game Boy и MS-DOS). Агент получает только изображения (скриншоты) и может отправлять команды в виде нажатий клавиш или кликов мышью.

Абстрагирование от технических деталей эмуляции.

Используются эмуляторы PyBoy и DOSBox, при этом модели не предоставляется дополнительная игровая информация (например, текстовые подсказки или игровые маски).
Режим VideoGameBench-Lite.

В этом режиме игра ставится на паузу, пока модель принимает решение, что позволяет избежать проблем с задержкой реакции и дает агенту время на обдумывание сложных действий.

Игра ставится на паузу, чтобы ИИ-агент подумал:
Базовый агент VideoGameAgent.

Для демонстрации возможностей авторы разработали базового агента, который использует подход ReAct с памятью. Агент анализирует последовательности скриншотов и выдает команды для управления игрой.
Качественная оценка работы агента.

Авторы подробно описывают проблемы, возникшие при тестировании: например, неверное распознавание игровых объектов (путаница между живыми и убитыми врагами) и неточности в управлении (неправильное позиционирование курсора).

4. Результаты исследования

Первые эксперименты показали следующее:

Модели пока не справляются даже с начальными уровнями некоторых игр.

Даже мощные модели, такие как GPT-4o или Claude Sonnet 3.7, испытывают серьезные трудности, что подчеркивает большой разрыв между текущими возможностями VLM и требованиями реальных игровых задач.
Проблемы с интерпретацией визуальной информации.

Модели часто неправильно оценивают игровую ситуацию, что приводит к неэффективным действиям (например, ненужному расходу патронов или неправильной навигации).
Высокая задержка реакции (latency) остается серьезной проблемой.

Время реакции моделей (до 3-5 секунд) критически влияет на их эффективность в реальном времени. Режим Lite частично решает эту проблему, но вопрос адаптации моделей к динамичным условиям остается открытым.
Разнообразие игровых механик усложняет задачу.

Каждая игра предъявляет свои уникальные требования к пространственному мышлению и точности действий – от управления мышью в стратегиях до быстрой реакции в шутерах.

5. Выводы и перспективы

Современные VLM пока ограниченно справляются с задачами управления реальными видеоиграми, используя только визуальную информацию.
Основные проблемы – это ошибки интерпретации визуальных данных и высокая задержка реакции, что требует дальнейших исследований в области планирования и оперативного принятия решений.
VideoGameBench представляет собой универсальную и гибкую платформу, которая может стать эффективным инструментом для оценки и развития мультимодальных агентов.
Дальнейшее развитие методов памяти и планирования позволит агентам адаптироваться к динамическим условиям.
Также бенчмарк можно расширять, добавления в него новых игр.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник

Запись добавлена: 30.04.2025 в 13:33
Оставлено в

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Советуем прочесть: