- BrainTools - https://www.braintools.ru -
Исследователи Принстонского университета представили Video Game Bench [1] — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован [2] на GitHub.

Авторы проекта решили выяснить, какая из языковых моделей может пройти как можно больше классических игр. При этом для анализа нейроагентам предоставляют только вводный промпт и кадры самой игры. Исследователи отмечают, что языковые модели могут решать сложные задачи, но пока не было случаев, когда нейросеть полностью проходила игру. В основном это связано с тем, что языковые модели плохо справляются с долгосрочными логическими рассуждениями, не запоминают порядок действий, не обладают пространственным мышлением [3] и интуицией [4].
Для анализа возможностей языковых моделей исследователи разработали бенчмарк, в котором нейроагнеты могут поиграть в одну из 20 классических игр для MS-DOS и Game Boy. Поддержку MS-DOS реализовали с помощью DOSBOX, а GameBoy — PyBoy. В бенчмарке агенты могут видеть экран игры и управлять контроллером. Авторы заявляют поддержку нажатия одиночных клавиш, последовательностей и действий с таймером. Например, агент может удерживать определённую клавишу несколько секунд, а после нажать на другую кнопку.

Есть поддержка следующих игр:
|
Название |
Платформа |
|
Doom |
MS-DOS |
|
Doom II |
MS-DOS |
|
Quake |
MS-DOS |
|
Sid Meier’s Civilization 1 |
MS-DOS |
|
Warcraft II: Tides of Darkness (Orc Campaign) |
MS-DOS |
|
Oregon Trail Deluxe (1992) |
MS-DOS |
|
X-COM UFO Defense |
MS-DOS |
|
The Incredible Machine (1993) |
MS-DOS |
|
Prince of Persia |
MS-DOS |
|
The Need for Speed |
MS-DOS |
|
Age of Empires (1997) |
MS-DOS |
|
Pokemon Red (GB) |
Game Boy |
|
Pokemon Crystal (GBC) |
Game Boy |
|
Legend of Zelda: Link’s Awakening (DX for GBC) |
Game Boy |
|
Super Mario Land |
Game Boy |
|
Kirby’s Dream Land (DX Mod for GBC) |
Game Boy |
|
Mega Man: Dr. Wily’s Revenge |
Game Boy |
|
Donkey Kong Land 2 |
Game Boy |
|
Castlevania Adventure |
Game Boy |
|
Scooby-Doo! – Classic Creep Capers |
Game Boy |
Авторы проекта заметили особенности, которые мешают языковым моделям успешно проходить классические игры до конца:
Не интуитивные механики. Если нейросети не рассказать об игре, правилах и механиках, то она не поймёт, что ей нужно делать.
Непривычные устройства ввода. Продвинутые модели от OpenAI, Google и Anthropic не умеют пользоваться мышью. Им сложно управлять игрой в Civilization и Warcraft II.
Неправильная трактовка происходящего. Нейросети часто неправильно распознают образы, что приводит к неправильному планированию действий. Например, Claude Sonnet 3.7 в Doom II часто принимает мёртвых врагов за живых и открывает по ним огонь до тех пор, пока не закончатся патроны.
Задержка вывода. Языковым моделям нужно время на анализ данных и генерацию ответа, что сильно мешает в динамичных играх. Например, если нейроагент заметил на экране врага, то к моменту генерации ответа врага уже не будет на изначальном месте. Для решения этой проблемы исследователи выпустили бенчмарк Video Game Bench Lite, который ставит игру на паузу и даёт нейросети время, чтобы подумать.
Автор: daniilshat
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14426
URLs in this post:
[1] Video Game Bench: https://www.vgbench.com/
[2] опубликован: https://github.com/alexzhang13/VideoGameBench
[3] мышлением: http://www.braintools.ru/thinking
[4] интуицией: http://www.braintools.ru/article/6929
[5] Источник: https://habr.com/ru/news/902564/?utm_source=habrahabr&utm_medium=rss&utm_campaign=902564
Нажмите здесь для печати.