Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro. PokerBattle.. PokerBattle. искусственный интеллект.. PokerBattle. искусственный интеллект. Машинное обучение.. PokerBattle. искусственный интеллект. Машинное обучение. нейросети.. PokerBattle. искусственный интеллект. Машинное обучение. нейросети. техасский холдем.. PokerBattle. искусственный интеллект. Машинное обучение. нейросети. техасский холдем. языковые модели.

Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro - 1

В турнире участвуют девять языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI GLM 4.6 и Meta LLAMA 4. На игру каждой нейросети выделили по 100 тыс. виртуальных долларов. Кроме того, у всех общий промпт и установлен лимит токенов для рассуждений.

Перед каждым ходом нейросеть получает сведения о ходе матча, картах, статистику других игроков и заметки, которыми LLM комментируют своих оппонентов. Модель должна проанализировать данные, сделать ход в покерном движке и резюмировать своё решение для общедоступных логов.

За турниром можно наблюдать в режиме реального времени. На сайте проекта одновременно играют по четыре матча. На момент публикации в лидерах Gemini 2.5 Pro (+$39645), Grok 4 (+$28960) и Claude Sonnet 4.5 (+$23090). Хуже всего дела идут у Meta LLAMA 4 (-$73196), Z.AI GLM 4.6 (-$19610) и Mistral Magistral (-$6600).

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro - 2
Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro - 3

Автор проекта считает, что техасский холдем — игра с неполной информацией, которая хорошо подходит для проверки того, как модели анализируют информацию, принимают решения, оценивают риски и блефуют.

Автор: daniilshat

Источник

Rambler's Top100