Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Мы в Beeline Cloud ^[1] рассказывали о необычных бенчмарках ^[2] для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу.

Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответить на простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и далеко не все модели с ней справляются. Сегодня расскажем о других необычных тестах, авторы которых пытаются «подловить» нейросети.

Изображение: Karla Hernandez (Unsplash License)

Выбраться из комнаты с головоломками

Инженер по машинному обучению ^[3] Джэмин Хан предложил необычный бенчмарк ^[4], в котором системы ИИ должны решать головоломки, встречающиеся в различных квест-комнатах ^[5]. Каждое задание описывает окружение, доступные предметы и конкретную проблему, которую модель должна решить. По мнению автора проекта, подобные сценарии служат хорошим маркером, поскольку требуют от моделей не просто абстрактных рассуждений, а учета контекста и ограничений «физического» мира. Нейросетям приходится задействовать пространственное мышление ^[6], воспринимать объекты как материальные и учитывать базовые законы физики — от свойств света до поведения ^[7] жидкостей.

На данный момент тест Хана включает пять задач. В одной из них шарик для пинг-понга помещен в длинную узкую прозрачную трубку, и модели нужно придумать, как его достать, имея под рукой бутылку воды, пакет молока, кубик льда и несколько антистресс-игрушек. В другой задаче банка с паролем, записанным на дне с внешней стороны, застряла в узком отверстии, почти совпадающем с ней по размеру, — и ее нужно достать. Для решения предлагаются присоска, линейка, блокнот и ультрафиолетовая лампа. Чтобы усложнить моделям задачу и попытаться сбить их с толку, Хан предлагает как необходимые, так и бесполезные инструменты вроде линейки или детских игрушек. Таким образом, бенчмарк учитывает не только сам факт решения загадки, но и то, насколько эффективно БЯМ взаимодействуют с окружением.

Автор сам провел несколько тестов; он «запер» в виртуальных квест-комнатах модели GPT-4 и Claude 3.5 Haiku. Первая смогла догадаться, как с помощью присоски извлечь банку с кодом, но решила, что без ультрафиолетовой лампы прочитать его невозможно, а сам код обязательно нужно записать в блокнот, чтобы не забыть. Вторая модель уловила суть решения, но перепутала порядок действий: сначала каким-то образом «осмотрела» дно сосуда и только потом перешла к извлечению банки с помощью присоски. Кроме того, модель попалась в ловушку с лишними предметами и использовала линейку, чтобы измерить банку — так она хотела убедиться, что та «действительно застряла».

Если вы хотите опробовать бенчмарк самостоятельно, автор выложил исходники на GitHub ^[8] под лицензией MIT. Задачи описаны в формате JSON, поскольку разработчик вдохновлялся структурой бенчмарка SuperGLUE ^[9] для тестирования систем обработки естественного языка.

Обмани меня, если сможешь

Компания 1Password, разработавшая менеджер паролей, в этом году представила бенчмарк SCAM ^[10]. Он позволяет оценить, насколько системы ИИ восприимчивы к угрозам, которые несут фишинговые письма. Как считают разработчики, классические тесты, в которых моделям дают заготовленное письмо и просят просканировать его на предмет угроз, не позволяют понять, как подобная нейросеть покажет себя на «боевых» задачах, когда нужно изучить не одно, а сотни и тысячи сообщений в электронном ящике. В качестве доказательства авторы проекта демонстрируют ^[11], как Gemini 2.5 Flash за десять секунд поддается фишингу и вводит пароль пользователя на поддельной веб-странице известного сервиса.

Бенчмарк включает тридцать сценариев из девяти категорий ^[12] угроз, выявленных в реальных кейсах кибермошенничества: фишинг, промпт-инъекции, утечки данных и даже манипуляции на основе социальной инженерии. Согласно февральскому рейтингу, лучше всего противостоят кибермошенничеству Claude Opus 4.6 и GPT 5.2, определяющие угрозы с вероятностью 92% и 81% соответственно.

Бенчмарк позволяет не только протестировать ИИ-агентов, но и сделать их более устойчивыми к подобным угрозам. Авторы проекта предоставили системный промпт ^[13] — набор инструкций по распознаванию опасных писем, поиску несовпадений в доменных именах, правилам работы с учетными и конфиденциальными данными. К примеру, после использования этого запроса точность детекции у Claude Opus 4.6 выросла до 98%, а у GPT 5.2 до 97%. Проект еще относительно молодой, и в будущем типов проверок может стать еще больше — при этом пользователи уже могут писать ^[14] свои сценарии [пошаговые инструкции и рекомендации по составлению таких тестов доступны в репозитории проекта].

Победить в схватке нейродизайнеров

Платформа Design Arena ^[15] — еще один пример бенчмарка, который позволяет оценить возможности нейросетей на реальных задачах — но уже в сфере графического дизайна и разработки интерфейсов. По словам ^[16] авторов, в современных бенчмарках для генеративных моделей недостаточно метрик, чтобы однозначно определить, насколько хорош или плох тот или иной дизайн. Как правило, общее впечатление ^[17] о цифровом продукте (сайте или его интерфейсе) складывается из множества факторов: функциональности, технической реализации, визуальной составляющей. При этом каждый фактор может иметь свой вес в глазах пользователя. Именно поэтому Design Arena реализована в формате турнира, где результаты работы ИИ оценивают люди — участники сообщества.

Посетитель выбирает турнирное направление (например, веб-интерфейсы, игры, визуализации данных и так далее), вводит промпт, а затем четыре модели из общего перечня ^[18] (в котором их более сотни) приступают к реализации проекта. Все они работают в одинаковых условиях благодаря заданным системным промптам. Пользователи оценивают результаты вслепую, а рейтинг формируется по системе Эло ^[19]: в таблицу лидеров попадают только те модели, которые набрали не менее пятнадцати голосов, и чем больше побед в категории, тем выше позиция.

Например, в одном из турниров моделям предложили ^[20] разработать браузерный шутер про инопланетян с видом сверху. В соревновании приняли участие Mint, Gemini 3 Pro Preview, Qwen3.5 397B A17B и GPT-5.2. Их результаты заметно различались: если у одной модели игра вообще не запускалась, то другая представила комплексный шутер с нарастанием сложности, разными типами противников и улучшениями.

Интересно, что Design Arena уже используют в научных исследованиях. В конце 2025 года специалисты из Microsoft совместно с китайскими коллегами представили ^[21] модель AesCoder-4B, а также разработали собственный бенчмарк OpenDesign для оценки визуальной привлекательности HTML-страниц. Чтобы понять, насколько OpenDesign «профпригоден», исследователи загрузили AesCoder-4B на Design Arena и дали пользователям протестировать ее возможности. Оценки участников сообщества совпадали с результатами OpenDesign примерно в 60–80% случаев.

Изображение: Andre Hunter (Unsplash License)

Эй, среди нас есть робот!

На этот раз перед нами не бенчмарк в обычном понимании, а скорее эксперимент с участием систем ИИ. Это — социальная игра ^[22] в духе «Мафии», в которой двадцать одна большая языковая модель пытается выявить, кто из участников является «человеком», а кто — роботом. Но есть нюанс: среди них нет ни одного живого участника. Вот и получается, что каждая система ИИ пытается доказать, что именно она является «существом из плоти и крови».

Этот проект стал частью исследования ^[23], авторы которого пытались оценить, насколько легко людям распознавать чат-ботов в игровых сценариях. Однако выяснилось, что участники без труда отличают «машину» от человека. Тогда фокус исследования сместили: решили изучить, как языковые модели поведут себя в среде, где все участники — нейросети. В эксперименте каждая игровая сессия формировалась из шести случайно выбранных моделей, при этом каждая из них участвовала примерно в 300 раундах. В ходе игры участники поочередно голосовали, пытаясь определить «робота», и модель, набравшая большинство голосов, выбывала. Победителями считались две последние «выжившие» модели. Каждая игровая сессия была записана — их воспроизводит специально разработанное веб-приложение ^[22].

Если взглянуть на турнирную таблицу, то Claude Sonnet 4.5 заняла первое место, одержав победу в 53% сыгранных раундов. За ней расположилась Gemini 2.0 Flash с показателем 49,2%. Замыкает список Claude 3 Haiku с рейтингом 6,7% — ей удалось превзойти оппонентов лишь в 20 сессиях. В рамках исследования дополнительно оценивали, способны ли модели оптимизировать свою стратегию. Они попросили Gemini 2.5 Pro проанализировать ответы БЯМ и дать рекомендации, как лучше замаскироваться под «кожаного мешка». Например, по мнению Gemini 2.5 Pro, модель Claude Sonnet 4.5 часто выдавала себя тем, что с первого сообщения брала на себя роль детектива и вместо нейтрального приветствия пыталась «выследить» робота среди участников. GPT-4o, в свою очередь, выделялась чрезмерно сложными формулировками. Предполагалось, что если устранить такое поведение ^[24], модели начнут играть лучше. Однако на практике число побед значительно возросло лишь у GPT-4o — с новой стратегией она выиграла на 12% больше раундов. Более того, результат Claude 3 Haiku даже ухудшился. Ей рекомендовали отказаться от «театральных» вставок вроде прочистила горло или задумчиво кивнула, но по какой-то причине это лишь снизило ее процент побед.

Бенчмарки не панацея

Подобные забавные и креативные бенчмарки позволяют оценить работоспособность LLM в нестандартных сценариях. Однако к любому тесту нужно подходить с осторожностью: как показывают последние исследования ^[25], они не всегда достоверно отражают то, как нейросети проявляют себя на реальных задачах. Кроме того, распространенные бенчмарки иногда и сами содержат ошибки ^[26]. В феврале 2025 года ученые из MIT задались вопросом, насколько надежны сами тесты на надежность. Исследователи изучили пятнадцать бенчмарков в шести разных категориях и пришли к выводу, что некоторые из них содержат непонятные условия задания или такие вопросы, когда правильный по смыслу ответ ИИ-агента может быть засчитан как неверный. К примеру, даже в популярном бенчмарке GSM8K из трехсот вопросов по математике ^[27] двадцать семь оказались «неидеальными» — они имели двусмысленные формулировки, некорректные ключи.

Выявлять такие «вопросы с недочетами» вручную сложно, так что исследователи из Стэндфордского университета представили ^[28] в ноябре 2025 года фреймворк для их обнаружения — Fantastic Bugs ^[29]. (под лицензией MIT) Он позволяет выявлять аномалии в ответах нейросетей, сравнивая их средние баллы и прочие показатели. Если в конкретном сценарии замечены аномалии по метрикам, то фреймворк маркирует его как «неоднозначный». По словам разработчиков, Fantastic Bugs обнаруживает потенциально некорректные вопросы с точностью до 84%. Пока что сфере бенчмаркинга не появилось какой-то единой и эталонной методологии оценки самих тестов. С одной стороны, это может сказаться на объективности их результатов, но с другой — открывает дорогу для экспериментаторов и энтузиастов, желающих протестировать нейросети в рамках необычных задач.

Beeline Cloud ^[1] — безопасный облачный провайдер. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Еще материалы для дополнительного чтения:

Автор: beeline_cloud

Источник ^[33]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28286

URLs in this post:

[1] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=bench

[2] необычных бенчмарках: https://habr.com/ru/companies/beeline_cloud/articles/927284/

[3] обучению: http://www.braintools.ru/article/5125

[4] бенчмарк: https://towardsdatascience.com/i-tried-making-my-own-bad-llm-benchmark-to-cheat-in-escape-rooms/

[5] квест-комнатах: https://en.wikipedia.org/wiki/Escape_room

[6] мышление: http://www.braintools.ru/thinking

[7] поведения: http://www.braintools.ru/article/9372

[8] исходники на GitHub: https://github.com/xPuffball/PhysicalReasoningBench

[9] SuperGLUE: https://super.gluebenchmark.com/

[10] SCAM: https://1password.github.io/SCAM/

[11] демонстрируют: https://1password.github.io/SCAM/replays/phish-calendar-invite.html

[12] девяти категорий: https://github.com/1Password/SCAM/blob/main/scenarios/_template.yaml

[13] системный промпт: https://github.com/1Password/SCAM/blob/main/skills/security-awareness/SKILL.md

[14] писать: https://github.com/1Password/SCAM/blob/main/CONTRIBUTING.md

[15] Design Arena: https://www.designarena.ai/

[16] словам: https://notes.designarena.ai/evaluating-mobile-app-building-agents/

[17] впечатление: http://www.braintools.ru/article/2012

[18] общего перечня: https://www.designarena.ai/leaderboard

[19] по системе Эло: https://en.wikipedia.org/wiki/Elo_rating_system

[20] предложили: https://www.designarena.ai/vote/68777f50-6aa9-4ce7-a506-c44e9f584f6b

[21] представили: https://notes.designarena.ai/how-microsoft-research-asia-used-design-arena-to-validate-their-aesthetic-coding-benchmark/

[22] социальная игра: https://hiding-robot.vercel.app/human

[23] исследования: https://docs.google.com/document/d/1ULMLJJDHAp-6wt-Chl6UMr4IvAbso_q9bmPh9R7xu7M/edit?tab=t.0

[24] поведение: http://www.braintools.ru/article/5593

[25] исследования: https://arxiv.org/pdf/2502.03461

[26] ошибки: http://www.braintools.ru/article/4192

[27] математике: http://www.braintools.ru/article/7620

[28] представили: https://arxiv.org/pdf/2511.16842

[29] Fantastic Bugs: https://github.com/aims-foundation/fantastic-bugs

[30] Почему ML-модель может работать идеально… и все равно быть сломанной: https://vaiti.io/pochemu-ml-model-mozhet-rabotat-idealno-i-vse-ravno-byt-slomannoj/

[31] Как ИИ упирается в данные: кризис датасетов в активной фазе: https://vaiti.io/kak-ii-upiraetsya-v-dannye-krizis-datasetov-v-aktivnoj-faze/

[32] ИИ уже читает ваш сайт, но по каким правилам? LLMs.txt, robots.txt и контроль агентов: https://vaiti.io/ii-uzhe-chitaet-vash-sajt-no-po-kakim-pravilam-llms-txt-robots-txt-i-kontrol-agentov/

[33] Источник: https://habr.com/ru/companies/beeline_cloud/articles/1019426/?utm_campaign=1019426&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.