MARL-GPT: на пути к созданию универсальной модели для многоагентных сред

Задача многоагентного обучения ^[1] с подкреплением ^[2] (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую задачу. Например, это могут быть футболисты, юниты в StarCraft или просто множество роботов, которым нужно дойти до своих целей в одном лабиринте. Очень часто агенты внутри сред не могут общаться и полагаются только на свои наблюдения. А вот что именно агенты наблюдают и как именно могут действовать — зависит и от среды, и даже от конкретного задания внутри неё.

В существующих работах по MARL модель, как правило, обучается под одну среду, и чтобы обучить её на новой среде, архитектуру нужно адаптировать. Мы же поставили перед собой грандиозную цель — создать единую модель (foundation model), которая сможет действовать в разных средах, переносить кооперативные стратегии между ними и легко адаптироваться к новым неизвестным заданиям. Но до этого ещё далеко, и начать нужно с более простого шага, а именно создать модель с единой архитектурой, которая не требует переделки под каждую среду и может обучаться на нескольких средах одновременно.

С вами Мария Нестерова из команды «RL агенты» Лаборатории когнитивных систем искусственного интеллекта ^[3] AIRI. Мы с коллегами создали метод MARL‑GPT — единую модель, которая обучается на датасетах из трёх разных сред. Центральная идея — обрабатывать наблюдение агента как последовательность и использовать для этого архитектуру трансформер. Модель мы впервые представили ^[4] на воркшопе WoMAPF’26 (Workshop on Multi‑Agent Path Finding, AAAI 2026), а расширенная версия ^[5] статьи прошла отбор на AAMAS 2026.

Ниже краткий рассказ о проблеме, как мы её решали и много гифок.

Три среды

Прежде чем говорить о единой модели, давайте познакомимся с тремя средами, на которых мы её обучали. Они выбраны не случайно: это три совершенно разных типа кооперативных задач и одновременно одни из самых популярных многоагентных сред. Все три среды объединяет то, что наблюдения в них могут быть представлены как вектор, а действия дискретны.

POGEMA ^[6] — многоагентный поиск пути. Несколько агентов должны добраться до своих целей, не мешая друг другу и не столкнувшись с препятствиями. Каждый агент видит лишь небольшой участок сетки вокруг себя (препятствия, других агентов и свою цель). Действия простые — четыре направления движения и ожидание на месте. Сценарии в этой среде могут различаться по количеству агентов и по картам, на которых этим агентам надо ориентироваться.

GRF ^[7] (Google Research Football) — симуляция футбольного матча. Агенты управляют игроками одной команды и должны забить гол. Наблюдение каждого игрока — это вектор из 115 чисел: координаты и скорости всех игроков на поле, положение мяча, текущий режим игры. Действия: пасовать, бить по воротам, двигаться в разных направлениях. Сценарии в этой среде различаются по сложности задачи: от упрощённых (удар по пустым воротам, игра 1‑на‑1) до полноценных матчей 11‑на‑11 разной сложности против встроенного бота.

SMACv2 ^[8] (StarCraft Multi‑Agent Challenge v2) — тактические сражения двух групп агентов в игре StarCraft. Команда союзников должна уничтожить команду противника. Каждый агент видит союзников и врагов в радиусе обзора: их тип, здоровье, координаты. Агенты могут различаться по ролям. Например, есть не только атакующие, но и хилеры. В этой среде действия следующие: двигаться, атаковать конкретного врага или лечить конкретного союзника. В зависимости от сценария в SMACv2 меняются тип агентов, их число и расы (protoss, terran, zerg). Все это влияет на размер наблюдения (чем больше агентов можно увидеть, тем длиннее наблюдение) и на размер пространства действий (оно зависит от количества врагов, которых можно атаковать).

Итого: три среды, у каждой своё устройство наблюдений и своё пространство действий. Наблюдение в POGEMA — это карта с препятствиями и агентами, в GRF — 115-мерный вектор про весь матч, в SMACv2 — список юнитов в радиусе обзора переменной длины. Ни форматы, ни размеры не совпадают.

В чём сложность

Стандартная практика в MARL — одна модель обучается под одну среду, так как каждый элемент в разных средах значит означает вещи. И это ещё полбеды. Нейросеть ждёт входные данные фиксированного размера. Но уже внутри одной среды (SMACv2) размер наблюдения может меняться от задания к заданию.

Как с этим справлялись раньше? Есть два классических подхода.

Дополнение нулями (zero‑padding). Берём максимально возможный размер наблюдения и дополняем реальное нулями до этого максимума. Просто, но грубо: нужно знать структуру наблюдения, чтобы понять, в каком месте вставить нули. Например, они могут оказаться и в середине, если в одном задании есть атрибут (например, щит), а в другом нет. Модель учится игнорировать «пустые» позиции и теряет часть сигнала.

Ручной энкодер под среду. Проектируем специальный модуль (энкодер), который «знает» структуру наблюдения. Это значит, что он вытаскивает информацию о каждом юните в отдельный вектор и передаёт их как последовательность. Работает хорошо — но только внутри одной среды. Под каждую новую нужно проектировать новый энкодер.

Оба подхода плохо масштабируются: первый — слишком грубый, второй — слишком ручной. Но главное, ни один из них не помогает обучать одну модель сразу на нескольких средах: у каждой свой формат, своя длина вектора, своя семантика элементов.

Встаёт вопрос: как сделать так, чтобы одна модель понимала наблюдения из совершенно разных сред — не зная заранее их устройства?

Ключевая идея: наблюдение как последовательность

Ответ подсказывает опыт ^[9] языковых моделей. Трансформер принимает на вход последовательность токенов произвольной длины. Что если смотреть на наблюдение агента так же? Любой вектор наблюдения можно нарезать на отдельные элементы и подать трансформеру как последовательность. Длина меняется от задания к заданию, от среды к среде — трансформер с этим справляется от природы.

Но есть проблема. Каждый элемент наблюдения привязан к своей позиции и значение этой позиции зависит от среды. Трансформер видит 0.35, 1.0, −0.2 — и не знает, что первое число — это координата X союзника, второе — его здоровье, третье — координата цели. Без контекста числа ничего не значат.

Решение: снабдить каждый элемент наблюдения структурированной меткой — позиционным кодированием. Причём, не просто с помощью порядкового номера, а через массив из четырех компонентов, описывающих смысл элемента:

Компонент	Что кодирует
Тип атрибута	Что это за признак: координата, здоровье, скорость…
Индекс команды	К какой группе принадлежит агент: союзник, враг, нейтрально
Индекс агента	Которому конкретному агенту принадлежит
Временной шаг	Текущий момент или история действий

Ключевой момент: архитектура модели не меняется от среды к среде, меняются только значения меток. Трансформер один и тот же. Просто в SMACv2 элемент про врага получит индекс команды 1, а в POGEMA, где все агенты кооперируют, индекс команды у всех 0. Модель учится понимать смысл через метки, а не через позицию в векторе.

Разберём на конкретном примере из среды SMACv2. Наблюдение содержит данные о нескольких юнитах — союзниках и врагах. Каждый юнит разворачивается в несколько элементов: координата X, координата Y, здоровье, тип юнита. Все они получают одинаковый индекс агента (номер юнита в наблюдении) и индекс команды (0 — союзник, 1 — враг). Тип атрибута различает, координата это или здоровье.

В итоге совершенно разные по природе наблюдения превращаются в один и тот же формат — последовательность элементов с метками. Одна и та же модель без каких‑либо изменений в архитектуре читает и поиск пути, и футбол, и StarCraft.

Обучение

Архитектура готова, теперь нужно её обучить. Мы используем offline reinforcement learning. Это значит, что модель учится не в живом взаимодействии со средой, а по готовому датасету траекторий.

Откуда берется этот датасет? Для каждой среды мы определяем эксперта, с помощью которого будет собран датасет. Для POGEMA использовали классический централизованный планировщик: он не учится, а решает задачу поиска пути напрямую и делает это очень хорошо. Для SMACv2 и GRF мы отдельно обучили специализированных RL‑агентов под каждый сценарий и собрали их траектории. Все эти датасеты из разных сред мы объединили в один общий пул.

Дальше одна модель обучается на всём датасете сразу. Батч формируется случайной выборкой из объединённого датасета, и модель на каждом шаге видит траектории из разных сред вперемешку.

Функция потерь сочетает два сигнала.

RL‑сигнал позволяет модели выходить за рамки датасета и улучшаться там, где эксперт был не оптимален. Также это помогает перенести опыт на новые, неизвестные задания.
Имитация эксперта (Behavior Cloning) заставляет модель воспроизводить действия из датасета. Это критично там, где эксперт почти оптимален: чистый RL‑сигнал в таких случаях слишком слабый и вносит шум вместо улучшения.

Дополнительные фичи, которые мы используем при обучении:

Занижаем значение Q‑функции для неизвестных пар наблюдение‑действие. Раз в датасете не было такой информации, значит, действие плохое.
На выходе пространство действий одно для всех сред. Различия между средами делаются благодаря маскированию.
Дискретный критик: трансформерная модель хуже справляется с задачей регрессии.

Всё описанное — это офлайн‑обучение. Модель учится на записанных траекториях, не взаимодействуя со средой напрямую. Но итоговую модель при необходимости можно дообучить онлайн, запустив стандартный RL‑алгоритм (IPPO) прямо в среде. Подробнее об этом будет в разделе результатов.

Результаты

Первый вопрос: справляется ли одна модель, обученная на всех средах сразу, не хуже специализированных? В целом да. На SMACv2 и GRF MARL‑GPT показывает результаты на уровне offline RL‑базовых моделей, каждая из которых обучалась только на своей среде.

Сравнение с baseline на SMACv2, GRF и POGEMA. Метрика для SMACv2 и GRF – процент успешно завершенных эпизодов, для POGEMA – пропускная способность (throughput). — Сравнение с baseline на SMACv2, GRF и POGEMA. Метрика для SMACv2 и GRF — процент успешно завершенных эпизодов, для POGEMA — пропускная способность (throughput).

Второй вопрос интереснее: умеет ли модель обобщаться на незнакомые задания?

Без дообучения модель способна переносить опыт на некоторые задания. Например, в POGEMA модель, обученная на случайных картах “Random” и лабиринтах “Mazes”, обобщается на новые карты (склады “Warehouse” и города “Cities”), которых не видела во время обучения. В SMACv2 модель может адаптироваться к новым сценариям с другим числом агентов и к новым расам. Например, если агентов обучить на датасете с расами protoss и zerg, то на незнакомой расе (terran) модель покажет хороший результат. Это происходит потому, что все расы придерживаются похожих тактик (отвлекать противников, окружать их, сосредоточить огонь только на одном враге). Однако модель не справляется, когда встречает абсолютно новую роль, например, медиков у terran.

Оценка переноса опыта в SMACv2. Метрика – процент успешно завершенных эпизодов. — Оценка переноса опыта в SMACv2. Метрика — процент успешно завершенных эпизодов.

Предобученную модель можно дообучить на новом сценарии двумя способами: офлайн (на датасете из нового задания) и онлайн (запустив RL‑алгоритм напрямую в среде). В обоих случаях адаптация проходит значительно быстрее, чем обучение с нуля: офлайн‑предобучение на разнообразных данных даёт хорошую инициализацию. На рисунке показаны результаты онлайн‑дообучения модели на незнакомых заданиях в средах GRF и SMACv2. Отметим, что первые n шагов мы дообучаем критика с замороженным актором, а потом дообучаем уже всю модель.

Важный момент про POGEMA. На этой среде MARL‑GPT уступает чистой имитации эксперта. Причина не в архитектуре, а в природе датасета. Планировщик, которым собирали данные, работает почти оптимально: в траекториях почти нет плохих действий, от которых RL мог бы оттолкнуться и улучшиться. Сигнал награды слишком слабый и RL‑компонента вместо улучшения вносит шум. Это важный вывод о границах offline RL: чем лучше эксперт, тем сложнее у него учиться методами RL.

Бонус: те же агенты, но в реальном мире. Мы запустили MARL‑GPT на настоящих роботах JetBot в физическом лабиринте, воспроизводящем сценарий из POGEMA. Роботы координировали маршруты и добирались до своих целей.

Что еще интересного возникало в обучении? Искусственный офсайд. Когда мы обучали эксперта для футбола, то на высокой сложности заданий агенты неожиданно нашли дыру в реализации правила офсайда. Вместо «осмысленной» позиционной игры все игроки нашей команды сразу же устремляются к воротам соперника, намеренно провоцируя офсайдную ситуацию. Как только офсайд фиксируется, и игра возобновляется, команда оказывается в выгодной позиции и почти мгновенно завладевает мячом. Формально это укладывается в правила среды, но по сути является настоящей лазейкой в её логике ^[10].

MARL-GPT: на пути к созданию универсальной модели для многоагентных сред - 9

Заключение

Беря за основу простую идею «наблюдение как последовательность», мы создали модель, которая обучается сразу на нескольких принципиально разных средах без каких‑либо изменений в архитектуре. Это, на наш взгляд, важный первый шаг к foundation model для многоагентного RL.

Остается несколько «но».

Позиционное кодирование пока ручное: под каждую новую среду нужно придумывать схему разметки наблюдения. Это требует понимания структуры среды и инженерных усилий. Именно это мешает настоящей универсальности. Кроме того, модель работает только с векторными наблюдениями, среды с пиксельным входом пока за рамками подхода.

Есть и более глубокая проблема. Действия в разных средах не имеют общего смысла: «действие № 3» в SMACv2 и «действие № 3» в GRF — это совершенно разные вещи. Это делает перенос поведения ^[11] между средами нетривиальным. Модель обучается работать в каждой среде, но не учится переносить стратегии из одной в другую. Именно это и остаётся главным открытым вопросом: как построить общее пространство наблюдений и действий, в котором такой перенос стал бы возможным?