- BrainTools - https://www.braintools.ru -

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии - 1

Недавно прогремела громкая новость: Google DeepMind будет тестировать ИИ-модели в EVE Online — одной из самых сложных MMO с живой экономикой, корпорациями игроков, дипломатией, войнами и рынками. Лаборатория заключила [1] исследовательское партнерство с Fenris Creations, студией-разработчиком EVE Online, ранее известной как CCP Games. Google также получила миноритарную долю в компании.

Сделка прошла [2] в момент крупной перестройки студии. Fenris Creations вышла из-под контроля Pearl Abyss и стала независимой после соглашения на 120 млн долл. Компания сохранила руководство, команды и текущие проекты, включая EVE Online, EVE Vanguard и EVE Frontier.

DeepMind не будет запускать эксперименты в основном мире EVE Online. Для исследований будет использоваться офлайн-версия игры на локальном сервере. Это позволит тестировать и оценивать модели в изолированной среде.

Зачем ИИ-проектам такие песочницы, чему они будут там обучаться и каким может стать ИИ благодаря такому обучению [3].

Почему именно EVE Online

Источник

Массовые многопользовательские ролевые онлайн-игры (MMORPG) — это виртуальные миры, где большое количество игроков взаимодействуют одновременно, выстраивая отношения, преследуя общие цели и участвуя в сложном игровом процессе. EVE Online — не просто очередная игра про космос. С 2003 года она работает как единая вселенная, где игроки сами создают большую часть экономики и политики. Они добывают ресурсы, строят корабли, торгуют, воюют, вступают в корпорации, заключают союзы, шпионят, защищают территории и годами нарабатывают репутацию.

Fenris описывает EVE как мир с единой вселенной, экономикой, управляемой игроками, и конкуренцией за власть, богатство и влияние. Для DeepMind такая среда ценна тем, что в ней трудно свести задачу к простой цели победить в матче. Здесь нужно планировать вдолгую, помнить прошлые события и адаптироваться к действиям других игроков.

Fenris указывает три исследовательских направления: долгосрочное планирование, память [5] прошлых событий и непрерывное обучение. Это слабые места многих современных ИИ-агентов. Модель может хорошо отвечать на отдельный запрос, но теряться в длинной цепочке действий, где каждое решение меняет будущие условия.

В EVE такой проблемы не избежать. Купил крупную партию ресурсов — повлиял на цены. Сорвал поставку — подвел корпорацию. Нарушил договор — испортил репутацию. Потерял корабль — потерял деньги, время и, возможно, доверие союзников. Победа в бою может дать политические бонусы, а удачная, казалось бы, сделка — выдать подготовку к будущей операции. Для ИИ это уже не шахматы и не одиночная аркада. Это среда, где агент должен жить среди других участников, учитывать их интересы и понимать цену своих действий.

EVE как песочница для социологов

EVE давно интересует не только игроков и разработчиков. Исследователи рассматривают такие виртуальные миры как удобные социально-экономические лаборатории. В работе [6] PLOS ONE на данных EVE Online авторы изучали, как реальные социальные и экономические условия в странах игроков отражаются на их поведении [7] внутри игры. Они нашли корреляции между внешними условиями и игровыми действиями: торговлей, взаимодействием с другими игроками, политическими и экономическими последствиями решений. До этого исследователи изучали поведение [8] игроков в World of Warcraft (WoW), футуристических мирах игр Destiny и Pardus и даже подтвердили теорию социального баланса, которая перекладывается на реальный мир. А в случае с EVE они сопоставили реальные страны со странами игровыми и поведение людей в реальности и игре.

Исследователи нашли связь. Например, игроки из стран с более высоким уровнем насилия меньше нападали на других игроков, но чаще атаковали неигровых персонажей. Авторы допускают, что виртуальный мир может работать как безопасный способ выплеснуть агрессию.

Еще один вывод связан с экономикой. Игроки из стран с высокой безработицей и слабой валютой чаще вели себя в игре более расчетливо: эффективнее торговали, экономили ресурсы и зарабатывали больше внутриигровых денег — игровую валюту в EVE можно использовать для оплаты подписки.

Главный вывод исследования: поведение игроков в EVE частично отражает социальную и экономическую среду, в которой они живут. Авторы подчеркивают, что речь идет о корреляции, а не о доказанной причинно-следственной связи. Но именно такие данные делают виртуальные миры полезными для социологов, экономистов и разработчиков ИИ: в них можно наблюдать, как реальные нормы, стресс [9] и экономические условия проявляются в цифровом обществе.

Ценность игровых миров — в возможности наблюдать за ними. В реальном обществе многие договоренности скрыты, часть мотивов невозможно точно установить, а последствия решений растянуты на годы. В игре можно гораздо точнее связать действие с контекстом: кто сделал ход и какая у него была мотивация [10], какими ресурсами он располагал, какая группа получила выгоду, как изменился рынок и что произошло дальше.

Игра дает не только социологам, но и ИИ редкую модель сложного поведения: люди действуют в условиях дефицита, конкуренции, доверия, обмана, иерархий и неформальных правил. Для социолога это цифровая песочница. Для DeepMind — полигон, где можно проверять способности ИИ действовать внутри социальной системы.

В исследовании [11] First Monday EVE описывается как сложная односерверная песочница, где социальный капитал формируется через автономию, доверие, компетентность и чувство принадлежности. Важны не только игровые навыки, но и репутация, наставничество, корпорации, альянсы и последствия риска.

Играя в такую игру, модель должна понимать не только формальные правила, но и негласные нормы. Формально можно обмануть союзника. Социально это может закрыть доступ к корпорациям, каналам снабжения и будущим сделкам. Формально можно атаковать слабую цель, а политически это может втянуть вас в конфликт [12] с крупным альянсом.

Обычный тест с задачами такому не научит. Чат-бот может отвечать убедительно, но это не означает, что он умеет выстраивать длительную стратегию и действовать в ее рамках, внося коррективы на ходу, учитывая новые вводные и последствия своих решений. EVE как раз дает ИИ такую среду.

Другие игровые песочницы для ИИ

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии - 3

Конечно, EVE — не первая игра, куда влез ИИ своими длинными щупальцами. Рассмотрим другие кейсы.

AlphaStar в StarCraft II: учит стратегии, разведке и борьбе с человеком

Источник

ИИ-систему AlphaStar Google DeepMind специально создали для обучения в StarCraft II. Хотя это была [14] не социальная MMO, но тоже среда с высокой степенью неопределенности: игрок не видит всю карту, должен развивать экономику, строить армию, вести разведку, реагировать [15] на действия соперника и менять стратегию в реальном времени.

AlphaStar обучали на человеческих партиях и через многоагентное обучение с подкреплением [16]. В итоге агент достиг уровня Grandmaster и оказался лучше 99,8% активных игроков Battle.net [17]. DeepMind подчеркивала, что StarCraft II выбрали из-за сложности, частичной наблюдаемости, большого пространства для действий и необходимости долгосрочного планирования.

OpenAI Five в Dota 2: командная игра, координация и самообучение

Источник

OpenAI использовала [19] Dota 2 как полигон для тренировки командного поведения. OpenAI Five обучался через масштабное самообучение и в 2019 году победил чемпионов мира Team OG. В работе OpenAI подчеркивалось, что система тренировалась 10 месяцев, а Dota 2 выбрали из-за сложности, необходимости командной координации, непрерывного принятия решений и огромного числа возможных ситуаций.

Но Dota 2 все равно ограничена матчем: есть начало, конец, понятная цель и фиксированные правила победы. EVE устроена иначе. Там нет одного финального экрана Victory. Игроки и корпорации живут в мире годами, а последствия решений могут всплывать спустя месяцы.

Cicero в Diplomacy: переговоры, доверие и скрытые намерения

Diplomacy — настольная стратегия, где победа зависит не столько от механики, сколько от переговоров, временных союзов, доверия и умения считывать намерения других игроков. Играя в эту игру, Cicero приблизился к человеческой социальной игре: договоренностям, сигналам, что тебе можно доверять, и скрытым намерениям. 

В статье Science Cicero описан [20] как первый ИИ-агент, достигший человеческого уровня в Diplomacy. Группа исследователей Fundamental AI Research Diplomacy Team (FAIR) и др. разработала агента, способного играть в полную версию игры на естественном языке и демонстрирующего результаты значительно выше среднего уровня у людей в онлайн-лиге. Cicero объединял языковую модель, планирование и обучение с подкреплением, анализировал намерения игроков по переписке и строил диалоги под свои планы.

Minecraft и Project Malmo: песочница для обучения агентов

Источник

Microsoft Research запустила [21] Project Malmo как платформу для экспериментов с ИИ поверх мира Minecraft. Агент использует глубокое обучение с подкреплением, может видеть мир, действовать в нем, выполнять задания и обучаться в открытой среде. Microsoft описывает Malmo как платформу для фундаментальных исследований ИИ, построенную на базе Minecraft.

Minecraft полезен тем, что в нем есть открытый мир, ресурсы, строительство, навигация и творческие задачи, «бесконечные возможности», как пишет Microsoft. Позже похожее направление развивали [22] исследователи Voyager: это LLM-агент для Minecraft, который сам исследует мир, накапливает навыки и расширяет библиотеку действий без постоянного участия человека.

Voyager строит дом и портал в мире Minecraft. Источник

Voyager строит дом и портал в мире Minecraft. Источник [23]

SIMA и SIMA 2 от DeepMind: агент, который действует в разных 3D-мирах

SIMA [24] — еще один важный проект DeepMind. Это агент для виртуальных 3D-миров, который должен понимать инструкции на естественном языке и выполнять действия в разных играх. В SIMA 2 DeepMind интегрировала Gemini: агент уже не просто выполняет короткие команды, а рассуждает о целях, общается с пользователем и улучшает поведение со временем.

Цикл самосовершенствования SIMA. Источник

Цикл самосовершенствования SIMA. Источник [24]

Способность SIMA 2 работать в различных игровых средах делает игры полигоном для проверки общего интеллекта [25], позволяя агентам осваивать навыки, практиковать сложные рассуждения и непрерывно учиться посредством самостоятельной игры. Но разработчики SIMA 2 признают, что агенту пока трудно решать сложные задачи с очень длинным горизонтом планирования. Ему не хватает долгой памяти о взаимодействиях, а точное управление клавиатурой и мышью вместе с надежным пониманием сложных 3D-сцен остаются нерешенными задачами.

Stanford Generative Agents: маленький город с ИИ-жителями

Источник

Исследователи создали [27] среду, похожую на маленький городок в духе The Sims, и поселили туда 25 ИИ-агентов. Они помнили события, строили планы, общались друг с другом и демонстрировали правдоподобное социальное поведение.

Архитектура агента. Источник

Архитектура агента. Источник [26]

Один из известных эпизодов: из простой идеи организовать вечеринку агенты сами распространили приглашения, договорились и пришли в нужное время.

Договоренности агентов. Источник

Договоренности агентов. Источник [26]

World of Warcraft и Corrupted Blood: игра как модель массового поведения в эпидемию

В 2005 году в World of Warcraft случайно возникла виртуальная эпидемия Corrupted Blood. Болезнь должна была работать в пределах рейда, но из-за особенностей механики распространилась по городам. Игроки реагировали по-разному: кто-то избегал зараженных зон, кто-то помогал другим, кто-то намеренно разносил болезнь.

Случай заинтересовал эпидемиологов, потому что показал поведение людей в массовом кризисе внутри виртуального мира. The Lancet писал [28], что такие игровые кейсы помогают изучать распространение инфекций и человеческие реакции на угрозы.


Скрытый текст

Игры и виртуальные миры нужны ИИ-разработчикам не ради рекордов в таблице лидеров. Это удобные испытательные стенды, где можно безопасно проверять поведение агента: он видит среду, принимает решения, получает результат, ошибается, учится и снова действует. В реальном мире такие эксперименты дороже, опаснее и хуже контролируются.

Главная ценность песочниц — сложность без физического риска. В игре можно дать агенту задачу, где есть неполная информация, другие участники, долгие последствия, ресурсы, рынок, договоренности и обман. Все это можно записывать в данные: что агент увидел, какое решение принял, как изменилась среда, кто пострадал, кто выиграл и к чему это привело.

Чему ИИ учат такие среды

Действовать не по разовому запросу, а идти к долгосрочной цели. В чат-боте модель отвечает здесь и сейчас. В песочнице агенту нужно удерживать план: добыть ресурс, построить цепочку действий, договориться с участниками, не потратить все сразу и не испортить будущие возможности.

Адаптация к противникам и союзникам. AlphaStar в StarCraft II учился не просто нажимать кнопки быстрее человека. Ему нужно было разведывать карту, строить экономику, выбирать стратегию, менять тактику и реагировать на соперника. DeepMind обучала его через имитационное обучение, самообучение и многоагентную среду с постоянно меняющимися стратегиями.

Координация в группе. В Dota 2 один сильный агент не выигрывает сам по себе: нужно распределять роли, помогать партнерам, выбирать момент атаки, отступать и жертвовать локальной выгодой ради командного результата. Для будущих ИИ-систем это важнее, чем кажется: корпоративные агенты тоже будут работать не в одиночку, а в связке с людьми, сервисами и другими моделями.

Переговоры и чтение намерений. Cicero в игре Diplomacy — это стратегия, где победа зависит от союзов, переговоров и доверия. Агент объединял языковую модель, планирование и обучение с подкреплением, анализировал намерения игроков по переписке и строил диалоги под свои планы.

Память и социальная правдоподобность. В проекте Stanford Generative Agents исследователи поселили 25 ИИ-агентов в интерактивный городок. Агенты помнили события, строили планы, общались, формировали мнения и создавали коллективные сценарии. Архитектура держалась на наблюдениях, памяти, планировании и рефлексии — без этих блоков поведение становилось менее убедительным.

Самостоятельное накопление умений. Microsoft Research сделала Project Malmo на базе Minecraft для фундаментальных исследований ИИ: агент может видеть среду, двигаться, выполнять задания и учиться через взаимодействие. Voyager пошел дальше: LLM-агент в Minecraft сам исследовал мир, копил библиотеку навыков и использовал обратную связь среды для улучшения программ действий.

Понимание человеческого поведения в массовых системах. История Corrupted Blood в World of Warcraft показала, что игровые миры могут неожиданно раскрывать реальные паттерны поведения: панику, любопытство, помощь, саботаж, нарушение карантина.

EVE Online собирает эти слои в одной среде и полезна как цифровое общество с измеримыми событиями. ИИ в такой песочнице может обучаться трем вещам, которые плохо проверяются обычными тестами.

Социальные причины. Агент должен понимать, что действие меняет не только цифры в интерфейсе, но и отношения между участниками. Сорванная поставка — это не просто минус к ресурсу, а удар по доверию. Удачная сделка — не просто прибыль, а возможный сигнал подготовки к войне.

Долгая память. В EVE прошлое имеет значение: кто предавал союзников, кто держал слово, кто контролирует логистику, кто может влиять на рынок. Такой мир заставляет модель связывать текущие решения с историей взаимодействий.

Поведение в обществе с нормами. Формально агент может сделать выгодный ход. Социально этот ход может разрушить доступ к корпорациям, рынкам и будущим союзам. Это важный шаг от ИИ, который оптимизирует ближайшую награду, к ИИ, который учитывает контекст и последствия.

Каким может стать ИИ после такого обучения

Если такие эксперименты сработают, ИИ-агенты станут менее похожи на умные автодополнения и больше — на участников сложных процессов.

Они смогут помнить историю взаимодействий, объяснять свои действия, координироваться с людьми, работать в условиях неполной информации и учитывать социальную цену решений. Это открывает путь к агентам, которые способны вести проект, планировать цепочку задач, договариваться с другими системами и контрагентами, отслеживать риски и не ломать процесс ради краткосрочной выгоды.

Но есть и обратная сторона. Игры с переговорами, рынками и конфликтами учат не только кооперации. Они учат обманывать, манипулировать и слишком агрессивно идти к цели. Именно поэтому такие песочницы важны еще и как безопасный полигон: там можно заранее увидеть нежелательное поведение, изучить его и поставить ограничения до выхода дообученного агента в релиз. В теории. А чему научатся ИИ-агенты на практике и как будут применять свои знания — покажет жизнь.

Автор: darovska_online

Источник [29]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/30355

URLs in this post:

[1] заключила: https://www.ccpgames.com/news/2026/studio-behind-eve-online-goes-independent-rebrands-as-fenris-creations-enters-research-partnership-with-google-deepmind

[2] прошла: https://www.gamespress.com/Studio-Behind-EVE-Online-Goes-Independent-Rebrands-as-Fenris-Creations

[3] обучению: http://www.braintools.ru/article/5125

[4] Источник: https://www.eveonline.com/ru/eve-academy/ships/mining-ships/venture

[5] память: http://www.braintools.ru/article/4140

[6] работе: https://journals.plos.org/plosone/article?id=10.1371%2Fjournal.pone.0240196

[7] поведении: http://www.braintools.ru/article/9372

[8] поведение: http://www.braintools.ru/article/5593

[9] стресс: http://www.braintools.ru/article/9548

[10] мотивация: http://www.braintools.ru/article/9537

[11] исследовании: https://firstmonday.org/ojs/index.php/fm/article/download/14147/12177

[12] конфликт: http://www.braintools.ru/article/7708

[13] Источник: https://news.blizzard.com/ru-ru/article/23544726/izmeneniya-v-starcraft-ii-15-oktyabrya-2020-g

[14] была: https://www.nature.com/articles/s41586-019-1724-z

[15] реагировать: http://www.braintools.ru/article/1549

[16] подкреплением: http://www.braintools.ru/article/5528

[17] Battle.net: http://Battle.net

[18] Источник: https://store.steampowered.com/app/570/Dota_2/?l=schinese&curator_clanid=5565657

[19] использовала: https://arxiv.org/abs/1912.06680

[20] описан: https://www.science.org/doi/10.1126/science.ade9097

[21] Источник: https://www.microsoft.com/en-us/research/project/project-malmo/

[22] развивали: https://arxiv.org/abs/2305.16291

[23] Источник: https://arxiv.org/pdf/2305.16291

[24] SIMA: https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

[25] интеллекта: http://www.braintools.ru/article/7605

[26] Источник: https://arxiv.org/pdf/2304.03442

[27] создали: https://arxiv.org/abs/2304.03442

[28] писал: https://www.thelancet.com/journals/laninf/article/PIIS1473-3099%2807%2970212-8/fulltext

[29] Источник: https://habr.com/ru/companies/ru_mts/articles/1035364/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1035364

www.BrainTools.ru

Rambler's Top100