VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?. llm.. llm. vlm.. llm. vlm. игры.. llm. vlm. игры. ИИ.. llm. vlm. игры. ИИ. искусственный интеллект.. llm. vlm. игры. ИИ. искусственный интеллект. Машинное обучение.
VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого? - 1

Языковые модели уже решают олимпиады и пишут код «на лету», так что пора бы им рулить и в Dark Souls… но (спойлер): первые же пиксели экшена вгоняют нейросеть в ступор. Почему ИИ пасует там, где нужен мгновенный инстинкт геймера? Разбираемся в статье.

1. Введение в проблему

Современные ИИ-модели успешно справляются со сложными задачами, такими как математические вычисления или написание кода. Однако когда дело доходит до видеоигр, они сталкиваются с рядом серьезных трудностей:

  • Необходимость сочетать визуальное восприятие и пространственное мышление.

    Видеоигры требуют не только анализа текста или чисел, но и понимания динамичных визуальных сцен, расположения объектов и быстрого принятия решений.

  • Высокая задержка (latency) при принятии решений.

    Современные визуально-языковые модели (VLM) часто медленно реагируют на изменения в игре. Задержка между получением изображения и выдачей команды становится критичной в условиях реального времени.

  • Разнообразие игровых механик.

    Разные жанры игр (шутеры, платформеры, стратегии и другие) предъявляют разные требования к моделям, требуя от них универсальности и способности быстро адаптироваться.

Таким образом, существует острая необходимость в создании специального тестового окружения, которое позволит объективно оценивать возможности современных моделей в реальных игровых сценариях.

Ни одна из представленных ниже нейросетей не прошла даже первый уровень в Doom:

2. Цель исследования

Основная цель авторов – новый бенчмарк VideoGameBench, который позволит:

  • Комплексно оценить способности VLM-агентов играть в настоящие видеоигры, используя только визуальную информацию (скриншоты) и минимальный интерфейс управления.

  • Создать мультиплатформенную среду, включающую как старые консольные игры (например, Game Boy), так и классические игры для MS-DOS, чтобы обеспечить разнообразие игровых механик и визуальных стилей.

  • Предложить два режима работы: обычный (игра в реальном времени) и режим «Lite» (игра останавливается, пока модель принимает решение), что позволяет обойти проблему задержки реакции модели.

Таким образом, исследователи стремятся создать основу для будущих экспериментов и разработки более продвинутых агентов, способных эффективно планировать действия в динамичных игровых условиях.

3. Методы исследования

Авторы статьи описывают следующие ключевые подходы и методы:

  • Единая среда для 20 различных игр.

    Бенчмарк включает игры разных жанров и платформ (Game Boy и MS-DOS). Агент получает только изображения (скриншоты) и может отправлять команды в виде нажатий клавиш или кликов мышью.

  • Абстрагирование от технических деталей эмуляции.

    Используются эмуляторы PyBoy и DOSBox, при этом модели не предоставляется дополнительная игровая информация (например, текстовые подсказки или игровые маски).

  • Режим VideoGameBench-Lite.

    В этом режиме игра ставится на паузу, пока модель принимает решение, что позволяет избежать проблем с задержкой реакции и дает агенту время на обдумывание сложных действий.

    Игра ставится на паузу, чтобы ИИ-агент подумал:

  • Базовый агент VideoGameAgent.

    Для демонстрации возможностей авторы разработали базового агента, который использует подход ReAct с памятью. Агент анализирует последовательности скриншотов и выдает команды для управления игрой.

  • Качественная оценка работы агента.

    Авторы подробно описывают проблемы, возникшие при тестировании: например, неверное распознавание игровых объектов (путаница между живыми и убитыми врагами) и неточности в управлении (неправильное позиционирование курсора).

4. Результаты исследования

Первые эксперименты показали следующее:

  • Модели пока не справляются даже с начальными уровнями некоторых игр.

    Даже мощные модели, такие как GPT-4o или Claude Sonnet 3.7, испытывают серьезные трудности, что подчеркивает большой разрыв между текущими возможностями VLM и требованиями реальных игровых задач.

  • Проблемы с интерпретацией визуальной информации.

    Модели часто неправильно оценивают игровую ситуацию, что приводит к неэффективным действиям (например, ненужному расходу патронов или неправильной навигации).

  • Высокая задержка реакции (latency) остается серьезной проблемой.

    Время реакции моделей (до 3-5 секунд) критически влияет на их эффективность в реальном времени. Режим Lite частично решает эту проблему, но вопрос адаптации моделей к динамичным условиям остается открытым.

  • Разнообразие игровых механик усложняет задачу.

    Каждая игра предъявляет свои уникальные требования к пространственному мышлению и точности действий – от управления мышью в стратегиях до быстрой реакции в шутерах.

5. Выводы и перспективы

  • Современные VLM пока ограниченно справляются с задачами управления реальными видеоиграми, используя только визуальную информацию.

  • Основные проблемы – это ошибки интерпретации визуальных данных и высокая задержка реакции, что требует дальнейших исследований в области планирования и оперативного принятия решений.

  • VideoGameBench представляет собой универсальную и гибкую платформу, которая может стать эффективным инструментом для оценки и развития мультимодальных агентов.

  • Дальнейшее развитие методов памяти и планирования позволит агентам адаптироваться к динамическим условиям.

  • Также бенчмарк можно расширять, добавления в него новых игр.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал – там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник

Rambler's Top100