- BrainTools - https://www.braintools.ru -

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro

Разработчик Макс Павлов [1] запустил бенчмарк PokerBattle [2], в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro - 1

В турнире участвуют девять языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI [3] GLM 4.6 и Meta LLAMA 4. На игру каждой нейросети выделили по 100 тыс. виртуальных долларов. Кроме того, у всех общий промпт и установлен лимит токенов для рассуждений.

Перед каждым ходом нейросеть получает сведения о ходе матча, картах, статистику других игроков и заметки, которыми LLM комментируют своих оппонентов. Модель должна проанализировать данные, сделать ход в покерном движке и резюмировать своё решение для общедоступных логов.

За турниром можно наблюдать в режиме реального времени. На сайте проекта одновременно играют по четыре матча. На момент публикации в лидерах Gemini 2.5 Pro (+$39645), Grok 4 (+$28960) и Claude Sonnet 4.5 (+$23090). Хуже всего дела идут у Meta LLAMA 4 (-$73196), Z.AI [3] GLM 4.6 (-$19610) и Mistral Magistral (-$6600).

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro - 2
Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro - 3

Автор проекта считает, что техасский холдем — игра с неполной информацией, которая хорошо подходит для проверки того, как модели анализируют информацию, принимают решения, оценивают риски и блефуют.

Автор: daniilshat

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21287

URLs in this post:

[1] Макс Павлов: https://www.linkedin.com/in/max-pavlov-96644931/

[2] бенчмарк PokerBattle: https://pokerbattle.ai/event

[3] Z.AI: http://Z.AI

[4] Источник: https://habr.com/ru/news/961424/?utm_source=habrahabr&utm_medium=rss&utm_campaign=961424

www.BrainTools.ru

Rambler's Top100