Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии. ai.. ai. Big Data.. ai. Big Data. Data Engineering.. ai. Big Data. Data Engineering. Блог компании МТС.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия. игровые миры.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия. игровые миры. ИИ.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия. игровые миры. ИИ. искусственный интеллект.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия. игровые миры. ИИ. искусственный интеллект. Машинное обучение.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия. игровые миры. ИИ. искусственный интеллект. Машинное обучение. модели.. ai. Big Data. Data Engineering. Блог компании МТС. геймдев. гейминг. игровая индустрия. игровые миры. ИИ. искусственный интеллект. Машинное обучение. модели. самообучение.
Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии - 1

Недавно прогремела громкая новость: Google DeepMind будет тестировать ИИ-модели в EVE Online — одной из самых сложных MMO с живой экономикой, корпорациями игроков, дипломатией, войнами и рынками. Лаборатория заключила исследовательское партнерство с Fenris Creations, студией-разработчиком EVE Online, ранее известной как CCP Games. Google также получила миноритарную долю в компании.

Сделка прошла в момент крупной перестройки студии. Fenris Creations вышла из-под контроля Pearl Abyss и стала независимой после соглашения на 120 млн долл. Компания сохранила руководство, команды и текущие проекты, включая EVE Online, EVE Vanguard и EVE Frontier.

DeepMind не будет запускать эксперименты в основном мире EVE Online. Для исследований будет использоваться офлайн-версия игры на локальном сервере. Это позволит тестировать и оценивать модели в изолированной среде.

Зачем ИИ-проектам такие песочницы, чему они будут там обучаться и каким может стать ИИ благодаря такому обучению.

Почему именно EVE Online

Источник

Массовые многопользовательские ролевые онлайн-игры (MMORPG) — это виртуальные миры, где большое количество игроков взаимодействуют одновременно, выстраивая отношения, преследуя общие цели и участвуя в сложном игровом процессе. EVE Online — не просто очередная игра про космос. С 2003 года она работает как единая вселенная, где игроки сами создают большую часть экономики и политики. Они добывают ресурсы, строят корабли, торгуют, воюют, вступают в корпорации, заключают союзы, шпионят, защищают территории и годами нарабатывают репутацию.

Fenris описывает EVE как мир с единой вселенной, экономикой, управляемой игроками, и конкуренцией за власть, богатство и влияние. Для DeepMind такая среда ценна тем, что в ней трудно свести задачу к простой цели победить в матче. Здесь нужно планировать вдолгую, помнить прошлые события и адаптироваться к действиям других игроков.

Fenris указывает три исследовательских направления: долгосрочное планирование, память прошлых событий и непрерывное обучение. Это слабые места многих современных ИИ-агентов. Модель может хорошо отвечать на отдельный запрос, но теряться в длинной цепочке действий, где каждое решение меняет будущие условия.

В EVE такой проблемы не избежать. Купил крупную партию ресурсов — повлиял на цены. Сорвал поставку — подвел корпорацию. Нарушил договор — испортил репутацию. Потерял корабль — потерял деньги, время и, возможно, доверие союзников. Победа в бою может дать политические бонусы, а удачная, казалось бы, сделка — выдать подготовку к будущей операции. Для ИИ это уже не шахматы и не одиночная аркада. Это среда, где агент должен жить среди других участников, учитывать их интересы и понимать цену своих действий.

EVE как песочница для социологов

EVE давно интересует не только игроков и разработчиков. Исследователи рассматривают такие виртуальные миры как удобные социально-экономические лаборатории. В работе PLOS ONE на данных EVE Online авторы изучали, как реальные социальные и экономические условия в странах игроков отражаются на их поведении внутри игры. Они нашли корреляции между внешними условиями и игровыми действиями: торговлей, взаимодействием с другими игроками, политическими и экономическими последствиями решений. До этого исследователи изучали поведение игроков в World of Warcraft (WoW), футуристических мирах игр Destiny и Pardus и даже подтвердили теорию социального баланса, которая перекладывается на реальный мир. А в случае с EVE они сопоставили реальные страны со странами игровыми и поведение людей в реальности и игре.

Исследователи нашли связь. Например, игроки из стран с более высоким уровнем насилия меньше нападали на других игроков, но чаще атаковали неигровых персонажей. Авторы допускают, что виртуальный мир может работать как безопасный способ выплеснуть агрессию.

Еще один вывод связан с экономикой. Игроки из стран с высокой безработицей и слабой валютой чаще вели себя в игре более расчетливо: эффективнее торговали, экономили ресурсы и зарабатывали больше внутриигровых денег — игровую валюту в EVE можно использовать для оплаты подписки.

Главный вывод исследования: поведение игроков в EVE частично отражает социальную и экономическую среду, в которой они живут. Авторы подчеркивают, что речь идет о корреляции, а не о доказанной причинно-следственной связи. Но именно такие данные делают виртуальные миры полезными для социологов, экономистов и разработчиков ИИ: в них можно наблюдать, как реальные нормы, стресс и экономические условия проявляются в цифровом обществе.

Ценность игровых миров — в возможности наблюдать за ними. В реальном обществе многие договоренности скрыты, часть мотивов невозможно точно установить, а последствия решений растянуты на годы. В игре можно гораздо точнее связать действие с контекстом: кто сделал ход и какая у него была мотивация, какими ресурсами он располагал, какая группа получила выгоду, как изменился рынок и что произошло дальше.

Игра дает не только социологам, но и ИИ редкую модель сложного поведения: люди действуют в условиях дефицита, конкуренции, доверия, обмана, иерархий и неформальных правил. Для социолога это цифровая песочница. Для DeepMind — полигон, где можно проверять способности ИИ действовать внутри социальной системы.

В исследовании First Monday EVE описывается как сложная односерверная песочница, где социальный капитал формируется через автономию, доверие, компетентность и чувство принадлежности. Важны не только игровые навыки, но и репутация, наставничество, корпорации, альянсы и последствия риска.

Играя в такую игру, модель должна понимать не только формальные правила, но и негласные нормы. Формально можно обмануть союзника. Социально это может закрыть доступ к корпорациям, каналам снабжения и будущим сделкам. Формально можно атаковать слабую цель, а политически это может втянуть вас в конфликт с крупным альянсом.

Обычный тест с задачами такому не научит. Чат-бот может отвечать убедительно, но это не означает, что он умеет выстраивать длительную стратегию и действовать в ее рамках, внося коррективы на ходу, учитывая новые вводные и последствия своих решений. EVE как раз дает ИИ такую среду.

Другие игровые песочницы для ИИ

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии - 3

Конечно, EVE — не первая игра, куда влез ИИ своими длинными щупальцами. Рассмотрим другие кейсы.

AlphaStar в StarCraft II: учит стратегии, разведке и борьбе с человеком

Источник

ИИ-систему AlphaStar Google DeepMind специально создали для обучения в StarCraft II. Хотя это была не социальная MMO, но тоже среда с высокой степенью неопределенности: игрок не видит всю карту, должен развивать экономику, строить армию, вести разведку, реагировать на действия соперника и менять стратегию в реальном времени.

AlphaStar обучали на человеческих партиях и через многоагентное обучение с подкреплением. В итоге агент достиг уровня Grandmaster и оказался лучше 99,8% активных игроков Battle.net. DeepMind подчеркивала, что StarCraft II выбрали из-за сложности, частичной наблюдаемости, большого пространства для действий и необходимости долгосрочного планирования.

OpenAI Five в Dota 2: командная игра, координация и самообучение

Источник

OpenAI использовала Dota 2 как полигон для тренировки командного поведения. OpenAI Five обучался через масштабное самообучение и в 2019 году победил чемпионов мира Team OG. В работе OpenAI подчеркивалось, что система тренировалась 10 месяцев, а Dota 2 выбрали из-за сложности, необходимости командной координации, непрерывного принятия решений и огромного числа возможных ситуаций.

Но Dota 2 все равно ограничена матчем: есть начало, конец, понятная цель и фиксированные правила победы. EVE устроена иначе. Там нет одного финального экрана Victory. Игроки и корпорации живут в мире годами, а последствия решений могут всплывать спустя месяцы.

Cicero в Diplomacy: переговоры, доверие и скрытые намерения

Diplomacy — настольная стратегия, где победа зависит не столько от механики, сколько от переговоров, временных союзов, доверия и умения считывать намерения других игроков. Играя в эту игру, Cicero приблизился к человеческой социальной игре: договоренностям, сигналам, что тебе можно доверять, и скрытым намерениям. 

В статье Science Cicero описан как первый ИИ-агент, достигший человеческого уровня в Diplomacy. Группа исследователей Fundamental AI Research Diplomacy Team (FAIR) и др. разработала агента, способного играть в полную версию игры на естественном языке и демонстрирующего результаты значительно выше среднего уровня у людей в онлайн-лиге. Cicero объединял языковую модель, планирование и обучение с подкреплением, анализировал намерения игроков по переписке и строил диалоги под свои планы.

Minecraft и Project Malmo: песочница для обучения агентов

Источник

Microsoft Research запустила Project Malmo как платформу для экспериментов с ИИ поверх мира Minecraft. Агент использует глубокое обучение с подкреплением, может видеть мир, действовать в нем, выполнять задания и обучаться в открытой среде. Microsoft описывает Malmo как платформу для фундаментальных исследований ИИ, построенную на базе Minecraft.

Minecraft полезен тем, что в нем есть открытый мир, ресурсы, строительство, навигация и творческие задачи, «бесконечные возможности», как пишет Microsoft. Позже похожее направление развивали исследователи Voyager: это LLM-агент для Minecraft, который сам исследует мир, накапливает навыки и расширяет библиотеку действий без постоянного участия человека.

Voyager строит дом и портал в мире Minecraft. Источник

Voyager строит дом и портал в мире Minecraft. Источник

SIMA и SIMA 2 от DeepMind: агент, который действует в разных 3D-мирах

SIMA — еще один важный проект DeepMind. Это агент для виртуальных 3D-миров, который должен понимать инструкции на естественном языке и выполнять действия в разных играх. В SIMA 2 DeepMind интегрировала Gemini: агент уже не просто выполняет короткие команды, а рассуждает о целях, общается с пользователем и улучшает поведение со временем.

Цикл самосовершенствования SIMA. Источник

Цикл самосовершенствования SIMA. Источник

Способность SIMA 2 работать в различных игровых средах делает игры полигоном для проверки общего интеллекта, позволяя агентам осваивать навыки, практиковать сложные рассуждения и непрерывно учиться посредством самостоятельной игры. Но разработчики SIMA 2 признают, что агенту пока трудно решать сложные задачи с очень длинным горизонтом планирования. Ему не хватает долгой памяти о взаимодействиях, а точное управление клавиатурой и мышью вместе с надежным пониманием сложных 3D-сцен остаются нерешенными задачами.

Stanford Generative Agents: маленький город с ИИ-жителями

Источник

Исследователи создали среду, похожую на маленький городок в духе The Sims, и поселили туда 25 ИИ-агентов. Они помнили события, строили планы, общались друг с другом и демонстрировали правдоподобное социальное поведение.

Архитектура агента. Источник

Архитектура агента. Источник

Один из известных эпизодов: из простой идеи организовать вечеринку агенты сами распространили приглашения, договорились и пришли в нужное время.

Договоренности агентов. Источник

Договоренности агентов. Источник

World of Warcraft и Corrupted Blood: игра как модель массового поведения в эпидемию

В 2005 году в World of Warcraft случайно возникла виртуальная эпидемия Corrupted Blood. Болезнь должна была работать в пределах рейда, но из-за особенностей механики распространилась по городам. Игроки реагировали по-разному: кто-то избегал зараженных зон, кто-то помогал другим, кто-то намеренно разносил болезнь.

Случай заинтересовал эпидемиологов, потому что показал поведение людей в массовом кризисе внутри виртуального мира. The Lancet писал, что такие игровые кейсы помогают изучать распространение инфекций и человеческие реакции на угрозы.


Скрытый текст

Игры и виртуальные миры нужны ИИ-разработчикам не ради рекордов в таблице лидеров. Это удобные испытательные стенды, где можно безопасно проверять поведение агента: он видит среду, принимает решения, получает результат, ошибается, учится и снова действует. В реальном мире такие эксперименты дороже, опаснее и хуже контролируются.

Главная ценность песочниц — сложность без физического риска. В игре можно дать агенту задачу, где есть неполная информация, другие участники, долгие последствия, ресурсы, рынок, договоренности и обман. Все это можно записывать в данные: что агент увидел, какое решение принял, как изменилась среда, кто пострадал, кто выиграл и к чему это привело.

Чему ИИ учат такие среды

Действовать не по разовому запросу, а идти к долгосрочной цели. В чат-боте модель отвечает здесь и сейчас. В песочнице агенту нужно удерживать план: добыть ресурс, построить цепочку действий, договориться с участниками, не потратить все сразу и не испортить будущие возможности.

Адаптация к противникам и союзникам. AlphaStar в StarCraft II учился не просто нажимать кнопки быстрее человека. Ему нужно было разведывать карту, строить экономику, выбирать стратегию, менять тактику и реагировать на соперника. DeepMind обучала его через имитационное обучение, самообучение и многоагентную среду с постоянно меняющимися стратегиями.

Координация в группе. В Dota 2 один сильный агент не выигрывает сам по себе: нужно распределять роли, помогать партнерам, выбирать момент атаки, отступать и жертвовать локальной выгодой ради командного результата. Для будущих ИИ-систем это важнее, чем кажется: корпоративные агенты тоже будут работать не в одиночку, а в связке с людьми, сервисами и другими моделями.

Переговоры и чтение намерений. Cicero в игре Diplomacy — это стратегия, где победа зависит от союзов, переговоров и доверия. Агент объединял языковую модель, планирование и обучение с подкреплением, анализировал намерения игроков по переписке и строил диалоги под свои планы.

Память и социальная правдоподобность. В проекте Stanford Generative Agents исследователи поселили 25 ИИ-агентов в интерактивный городок. Агенты помнили события, строили планы, общались, формировали мнения и создавали коллективные сценарии. Архитектура держалась на наблюдениях, памяти, планировании и рефлексии — без этих блоков поведение становилось менее убедительным.

Самостоятельное накопление умений. Microsoft Research сделала Project Malmo на базе Minecraft для фундаментальных исследований ИИ: агент может видеть среду, двигаться, выполнять задания и учиться через взаимодействие. Voyager пошел дальше: LLM-агент в Minecraft сам исследовал мир, копил библиотеку навыков и использовал обратную связь среды для улучшения программ действий.

Понимание человеческого поведения в массовых системах. История Corrupted Blood в World of Warcraft показала, что игровые миры могут неожиданно раскрывать реальные паттерны поведения: панику, любопытство, помощь, саботаж, нарушение карантина.

EVE Online собирает эти слои в одной среде и полезна как цифровое общество с измеримыми событиями. ИИ в такой песочнице может обучаться трем вещам, которые плохо проверяются обычными тестами.

Социальные причины. Агент должен понимать, что действие меняет не только цифры в интерфейсе, но и отношения между участниками. Сорванная поставка — это не просто минус к ресурсу, а удар по доверию. Удачная сделка — не просто прибыль, а возможный сигнал подготовки к войне.

Долгая память. В EVE прошлое имеет значение: кто предавал союзников, кто держал слово, кто контролирует логистику, кто может влиять на рынок. Такой мир заставляет модель связывать текущие решения с историей взаимодействий.

Поведение в обществе с нормами. Формально агент может сделать выгодный ход. Социально этот ход может разрушить доступ к корпорациям, рынкам и будущим союзам. Это важный шаг от ИИ, который оптимизирует ближайшую награду, к ИИ, который учитывает контекст и последствия.

Каким может стать ИИ после такого обучения

Если такие эксперименты сработают, ИИ-агенты станут менее похожи на умные автодополнения и больше — на участников сложных процессов.

Они смогут помнить историю взаимодействий, объяснять свои действия, координироваться с людьми, работать в условиях неполной информации и учитывать социальную цену решений. Это открывает путь к агентам, которые способны вести проект, планировать цепочку задач, договариваться с другими системами и контрагентами, отслеживать риски и не ломать процесс ради краткосрочной выгоды.

Но есть и обратная сторона. Игры с переговорами, рынками и конфликтами учат не только кооперации. Они учат обманывать, манипулировать и слишком агрессивно идти к цели. Именно поэтому такие песочницы важны еще и как безопасный полигон: там можно заранее увидеть нежелательное поведение, изучить его и поставить ограничения до выхода дообученного агента в релиз. В теории. А чему научатся ИИ-агенты на практике и как будут применять свои знания — покажет жизнь.

Автор: darovska_online

Источник