- BrainTools - https://www.braintools.ru -

Современные ИИ-системы для видеоигр часто упираются в ограничения классических методов, таких как обучение [1] с подкреплением [2] (RL): они требуют больших вычислительных ресурсов, длительного обучения и тонкой настройки под каждую игру. В ответ на эти сложности исследователи из Tencent предложили новый подход к созданию ИИ-агентов для 3D-игр — с опорой на большие языковые модели (LLM) и специализированный язык описания поведения [3]. Такой метод позволяет быстро генерировать эффективные стратегии без переобучения, и, как показывают эксперименты, демонстрирует впечатляющие результаты. Разбираемся, как это работает.

Авторы исследования “Agents Play Thousands of 3D Video Games” [4] выделяют три ключевые проблемы:
• Адаптивность: ИИ-агенты должны быстро осваивать тысячи новых игр с разными механиками и условиями;
• Экономия ресурсов: Традиционные RL-методы требуют слишком много вычислительных мощностей и времени;
• Понятность поведения [5]: Для разработчиков и дизайнеров важно понимать, почему агент действует именно так.
Чтобы решить эти проблемы, авторы предлагают совершенно новый подход: использовать большие языковые модели (LLM) для генерации стратегий в виде понятных поведенческих деревьев.
Цель работы – создать универсальный фреймворк под названием PORTAL, который:
• Позволяет ИИ-агентам эффективно играть в тысячи различных 3D-игр без необходимости долгого переобучения;
• Быстро генерирует стратегии в виде поведенческих деревьев на понятном DSL-языке;
• Объединяет сильные стороны LLM (стратегическое планирование и высокоуровневое мышление [6]) с надежностью простых правил и компактных нейронных сетей;
• Позволяет быстро улучшать стратегии на основе игровых метрик и анализа с помощью визуально-языковых моделей (VLM).
Таким образом, авторы стремятся преодолеть ограничения традиционных RL-методов и предложить более эффективное и понятное решение для динамичных игровых сред.
Авторы предложили несколько ключевых решений:
1. Превращение задачи принятия решений в задачу языкового моделирования
• Использование LLM для генерации поведенческих деревьев, описанных на DSL;
• Применение подхода Chain-of-Thought (CoT) для пошагового создания и улучшения стратегий.
2. Гибридная архитектура политики
Поведенческие деревья состоят из двух типов узлов:
• Нейронные узлы: выполняют тактические действия с помощью небольших нейронных сетей.
• Узлы с правилами: реализуют простые и понятные правила.
Такой подход позволяет сочетать стратегическое планирование (LLM) с быстрым и надежным исполнением.
3. Двойной механизм обратной связи (Reflexion)
• Количественные игровые метрики: анализируются показатели вроде числа убийств, эффективности перемещений и т.д.
• Визуально-языковые модели: на основе мини-карт анализируются стратегические аспекты (контроль территории, командная игра, адаптивность).
4. Поиск и отбор лучших стратегий
• Используется поиск в ширину (BFS) для генерации множества вариантов стратегий.
• Лучшие стратегии отбираются по игровым метрикам и затем дополнительно улучшаются.
5. Планирование и переключение политик
• Отдельная нейросеть («policy scheduling network») выбирает наиболее подходящее поведенческое дерево в зависимости от текущей игровой ситуации.
Таким образом, авторы объединили преимущества современных LLM с проверенными методами управления поведением, получив стабильные и адаптивные решения.
Авторы протестировали фреймворк PORTAL на платформе Yuan Meng Star от Tencent, выбрав для экспериментов игры жанра FPS (шутеры от первого лица). Основные результаты:

• Улучшение игровых показателей: Итеративное улучшение стратегий позволило существенно сократить время между убийствами и повысить эффективность игровых действий;
• Повышение тактической эффективности: Анализ с помощью визуально-языковых моделей помог улучшить контроль территории, командную координацию и адаптивность агентов;
• Универсальность стратегий: Агенты успешно справились с разными FPS-играми, подтвердив способность фреймворка обобщать стратегии на различные игровые механики и визуальные стили;
• Быстрая разработка и адаптация: Возможность мгновенно обновлять и тестировать стратегии без переобучения нейронных сетей значительно ускорила разработку.
Предложенный фреймворк PORTAL объединяет преимущества современных языковых моделей и проверенных методов управления поведением, позволяя создавать понятные, адаптивные и эффективные стратегии.
Метод также можно адаптировать для робототехники, автономного транспорта и других задач с иерархическим принятием решений. А добавление нескольких агентов в систему сможет расширить позволит создавать сложные и эффективные командные стратегии.
Однако несмотря на успешные результаты в FPS-играх, адаптация к более сложным жанрам (например, RPG или стратегии) потребует дополнительных исследований. Также в необычных игровых сценариях предложенный подход может уступать традиционным RL-методам, что требует дальнейших исследований.
—
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [7] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14737
URLs in this post:
[1] обучение: http://www.braintools.ru/article/5125
[2] подкреплением: http://www.braintools.ru/article/5528
[3] поведения: http://www.braintools.ru/article/9372
[4] “Agents Play Thousands of 3D Video Games”: https://arxiv.org/abs/2503.13356
[5] поведения: http://www.braintools.ru/article/5593
[6] мышление: http://www.braintools.ru/thinking
[7] подписывайтесь на мой Telegram-канал: https://t.me/+PDEAb331VZllNWI6
[8] Источник: https://habr.com/ru/articles/905384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=905384
Нажмите здесь для печати.