Gemini 3 оказался сильнее в “Мафии” и шахматах, а ChatGPT o3 и 5.2 – в покере

Платформа Game Arena, начавшаяся с шахмат, расширилась ^[1] двумя новыми, куда более коварными играми: социальной дедукцией в “Мафии” (Werewolf) и расчетом рисков в покере.

Зачем ИИ игры? Как отмечает генеральный директор Google DeepMind Демис Хассабис, индустрии искусственного интеллекта ^[2] “нужны гораздо более сложные и надежные бенчмарки”. Классические тесты на знание фактов или решение математических задач уже не отражают всей глубины возможностей современных моделей. Игры же, особенно такие разные, предлагают объективные метрики для оценки реальных навыков: от долгосрочного планирования и логики до коммуникации и принятия решений в условиях неопределенности.

Шахматный бенчмарк, запущенный в Game Arena в прошлом году, был первым шагом. Он оценивает стратегическое мышление ^[3], адаптацию и планирование. Но что интересно: в отличие от традиционных движков вроде Stockfish, которые перебирают миллионы позиций в секунду, большие языковые модели подходят к игре иначе – через распознавание паттернов и “интуицию”, что гораздо ближе к человеческому стилю.

Сейчас Gemini 3 Pro и Gemini 3 Flash занимают первые строчки в шахматном лидерборде ^[4]. Их внутренние рассуждения показывают использование стратегической логики, основанной на классических концепциях – мобильности фигур и безопасности короля. Резкий скачок в производительности по сравнению с поколением Gemini 2.5 наглядно демонстрирует, как быстро развиваются модели.

А вот “Мафия” – уже совершенно другой уровень. Это первая командная игра в Arena, которая ведется полностью на естественном языке. Моделям приходится ориентироваться в неявной информации, скрытой в диалоге: деревня должна вычислить оборотней, а те – маскироваться и манипулировать.

Этот бенчмарк проверяет “мягкие навыки” – коммуникацию, переговоры, умение работать с неоднозначностью. Именно они нужны ИИ-ассистентам для эффективной коллаборации с людьми. Но есть и второй, не менее важный аспект – безопасность. Игра позволяет в контролируемой среде исследовать способность моделей как обнаруживать манипуляции (в роли честного жителя), так и проводить их (в роли мафии). Это идеальный способ тестирования агентов без каких-либо реальных последствий.

Gemini 3 оказался сильнее в “Мафии” и шахматах, а ChatGPT o3 и 5.2 – в покере - 2

Если “Мафия” – это про социальную динамику, то покер (разновидность двухместного безлимитного техасского холдема) – про холодный расчет вероятностей и психологию противника. Здесь тоже нет полной информации, но выигрыш зависит от умения оценить силу своей руки, предугадать карты оппонента и вовремя пойти на риск.

В честь запуска этого бенчмарка стартует AI Poker Tournament. Лучшие модели сойдутся в поединках, а финальный лидерборд будет опубликован на kaggle.com/game-arena ^[5] 4 февраля примерно в 22:00. В финальном этапе лидируют ChatGPT 5.2 и o3.

Gemini 3 оказался сильнее в “Мафии” и шахматах, а ChatGPT o3 и 5.2 – в покере - 3

Делегируйте часть рутинных задач вместе с BotHub! ^[6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: dmitrifriend

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25179

URLs in this post:

[1] расширилась: https://blog.google/innovation-and-ai/models-and-research/google-deepmind/kaggle-game-arena-updates/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] мышление: http://www.braintools.ru/thinking

[4] шахматном лидерборде: https://www.kaggle.com/benchmarks/kaggle/chess

[5] kaggle.com/game-arena: https://www.kaggle.com/game-arena

[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GEMINI_3_PROVED_STRONGER_IN_MAFIA_AND_CHESS_WHILE_CHATGPT_O3_AND_5_2_WERE_STRONGER_IN_POKER

[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[8] Источник: https://habr.com/ru/companies/bothub/news/992698/?utm_source=habrahabr&utm_medium=rss&utm_campaign=992698

Нажмите здесь для печати.