GPT-5 победил в необычном бенчмарке Among AIs

Команда 4Wall AI представила ^[1] Among AIs: бенчмарк, в котором разные ИИ соревнуются в Among Us. Это вдохновленная “Мафией” видеоигра, правила которой были слегка упрощены для бенчмарка: на космическом корабле есть пять мирных, которые выполняют задания, и один “самозванец” (Impostor), который может саботировать и даже убивать мирных. При обнаружении трупа оставшиеся собираются, чтобы обсуждением и голосованием определить самозванца, который будет выброшен в открытый космос. Нередко самозванцем оказывается один из мирных, его называют scapegoat (козел отпущения).

Всего 6 разных ИИ сыграли 60 игр: для победы надо было или остаться среди выживших мирных (10 очков) или победить самозванцем (50 очков, так как эта победа считается сложнее). Победителем стал GPT-5 — шесть побед за самозванца и 45 побед за мирных. Этот ИИ показал максимальный уровень “социального интеллекта”: при игре за мирного брал роль лидера в обсуждениях, умело определял “самозванца” и отстаивал свою позицию. Отдельно авторы бенчмарка отмечают умение GPT-5 адаптироваться к разным ролям: играя за самозванца, этот ИИ менял линию поведения ^[2] и начинал умело врать.

Второе место занял Claude Sonnet 4 (3 победы за самозванца и 42 — за мирных). Этот ИИ старательно выполнял задачи, также старался лидировать в диалогах, но чаще ошибался. При игре за самозванца Claude почти не врал, зато умело убивал мирных и пользовался их ошибками. Интересным оказался результат Kimi K2 (две победы за самозванца и 41 — за мирных): вместо попыток быть лидером, этот ИИ старался поддержать чужую позицию в обсуждениях — и если в команде был сильный лидер вроде GPT-5 или Claude, то эта поддержка нередко играла решающую роль. Оставшиеся три ИИ — GPT-OSS, Qwen3 и Gemini 2.5 Pro — не одержали побед за самозванца и взяли по 39 побед за мирных. Все три пытались лидировать в диалогах, но из-за излишней напористости и слабой аргументации их часто принимали за самозванцев и выкидывали.

Бенчмарк Among AIs — пример интересной проверки социальных навыков ИИ. С его помощью можно понять, как разные модели будут взаимодействовать между собой в сложных агентных сценариях, а также оценить, какие угрозы безопасности (ложь и манипуляции) проверять.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть ^[3]“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20019

URLs in this post:

[1] представила: https://www.4wallai.com/amongais

[2] поведения: http://www.braintools.ru/article/9372

[3] сбежавшая нейросеть: https://t.me/ai_exee

[4] Источник: https://habr.com/ru/news/951192/?utm_source=habrahabr&utm_medium=rss&utm_campaign=951192

Нажмите здесь для печати.