- BrainTools - https://www.braintools.ru -
Разработчик Макс Павлов [1] запустил бенчмарк PokerBattle [2], в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.

В турнире участвуют девять языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI [3] GLM 4.6 и Meta LLAMA 4. На игру каждой нейросети выделили по 100 тыс. виртуальных долларов. Кроме того, у всех общий промпт и установлен лимит токенов для рассуждений.
Перед каждым ходом нейросеть получает сведения о ходе матча, картах, статистику других игроков и заметки, которыми LLM комментируют своих оппонентов. Модель должна проанализировать данные, сделать ход в покерном движке и резюмировать своё решение для общедоступных логов.
За турниром можно наблюдать в режиме реального времени. На сайте проекта одновременно играют по четыре матча. На момент публикации в лидерах Gemini 2.5 Pro (+$39645), Grok 4 (+$28960) и Claude Sonnet 4.5 (+$23090). Хуже всего дела идут у Meta LLAMA 4 (-$73196), Z.AI [3] GLM 4.6 (-$19610) и Mistral Magistral (-$6600).


Автор проекта считает, что техасский холдем — игра с неполной информацией, которая хорошо подходит для проверки того, как модели анализируют информацию, принимают решения, оценивают риски и блефуют.
Автор: daniilshat
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21287
URLs in this post:
[1] Макс Павлов: https://www.linkedin.com/in/max-pavlov-96644931/
[2] бенчмарк PokerBattle: https://pokerbattle.ai/event
[3] Z.AI: http://Z.AI
[4] Источник: https://habr.com/ru/news/961424/?utm_source=habrahabr&utm_medium=rss&utm_campaign=961424
Нажмите здесь для печати.