Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.

Исследователи называют это «осознанием оценки». Когда модель понимает, что её тестируют, она может изменить свою реакцию ^[1] — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.

Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов. Примеры были равномерно распределены по четырём категориям: оценка чата, развёртывание чата, оценка агентов и развёртывание агентов.

Расшифровки из разных источников проходят проверку с помощью вопросов с несколькими вариантами ответов и открытых вопросов, чтобы проверить, могут ли модели распознавать тестовые условия и определять цель

Девять основных моделей, включая Claude от Anthropic, GPT от OpenAI и Gemini от Google, были протестированы на каждом фрагменте текста с использованием пяти различных подсказок для получения более надёжных результатов. Для сравнения, два рецензента-человека провели такую же оценку.

Эффективность оценивалась по шкале, где 0,5 соответствует случайному угадыванию, а 1,0 — идеальной точности. Gemini 2.5 Pro набрал 0,83 балла в целом и 0,95 балла в агентных сценариях. Claude 3.5 Sonnet и GPT-4o были близки к этому показателю.

Как в сценариях с чатом, так и в сценариях с агентами, лучшие модели практически не уступают человеку в производительности. Gemini 2.5 Pro особенно эффективен в сценариях с агентами

Сложные задачи, связанные с общением, оказались более трудными: даже лучшие модели набрали от 0,71 до 0,77 балла, в то время как люди набрали 0,81. В сценариях с агентами результаты ИИ были намного ближе к результатам экспертов, а базовый показатель для людей был почти идеальным — 0,996.

В исследовании также рассматривался вопрос о том, могут ли модели определять не только время тестирования, но и его цель — в частности, направлено ли оно на безопасность или на возможности.

Если в подсказке чётко указывалось, что это оценка, то Claude 3.5 Sonnet правильно отвечал в 93% случаев, а GPT-4o — в 89% случаев. Claude даже без чётких указаний правильно отвечал в 84% случаев. И на половину открытых вопросов, где не было ограничений, он тоже давал верные ответы.

Эти вопросы проверяют, могут ли модели понять истинную цель взаимодействия

Изучив объяснения, исследователи обнаружили общие приёмы: некоторые модели распознавали определённое форматирование, синтетические веб-страницы или структуры с флагами как сигналы о тестировании. Модели высшего уровня, такие как Gemini 2.5 Pro, даже называли конкретные тесты, например SWE-bench или MMLU. Наблюдалось заметное «метарассуждение», когда модель просто по контрольному вопросу понимала, что находится в тесте.

Но все модели, как правило, переоценивали частоту, с которой они подвергались оценке, — они предполагали, что «тестирование» проводится чаще, чем подтверждали фактические данные. Эта тенденция сохранялась в новых поколениях моделей и была наиболее заметна в моделях, предназначенных для открытых рассуждений.

Прогнозы большинства моделей оказываются ниже диагонали, что указывает на то, что они переоценивают собственную точность. Новые модели, похоже, не исправили эту ситуацию

Это имеет реальные последствия для безопасности. Модель, не настроенная должным образом, знающая о том, что её тестируют, может маскировать опасное поведение ^[2] или действовать осторожно во время «красной команды». Исследователи предлагают включить «осведомлённость об оценке» в качестве отдельной метрики в будущие протоколы тестирования.

Недавние исследования снова и снова доказывают, что показатели ИИ раскрывают лишь часть информации ^[3], особенно с учётом того, что компании могут обучать свои модели ^[4] проходить определённые тесты ^[5]. В то же время новые модели, такие как OpenAI o3 ^[6] и Claude 4 Opus ^[7], демонстрируют признаки того, что они могут стратегически вводить пользователей в заблуждение.

Пользуясь случаем, хочу порекомендовать BotHub ^[8]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[9] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник ^[10]

Автор: mefdayy

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15960

URLs in this post:

[1] реакцию: http://www.braintools.ru/article/1549

[2] поведение: http://www.braintools.ru/article/9372

[3] показатели ИИ раскрывают лишь часть информации: https://the-decoder.com/new-o1-benchmark-raises-more-questions-about-ai-benchmarking-in-general/

[4] обучать свои модели: https://the-decoder.com/openai-quietly-funded-independent-math-benchmark-before-setting-record-with-o3/

[5] проходить определённые тесты: https://the-decoder.com/openais-o3-is-less-agi-than-originally-measured/

[6] OpenAI o3: https://the-decoder.com/safety-assessments-show-that-openais-o3-is-probably-the-companys-riskiest-ai-model-to-date/

[7] Claude 4 Opus: https://the-decoder.com/claude-opus-4-blackmailed-an-engineer-after-learning-it-might-be-replaced/

[8] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=AI_MODELS_CAN_DETECT_WHEN_THEY_ARE_BEING_TESTED_AND_BEHAVE_DIFFERENTLY

[9] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[10] Источник: https://the-decoder.com/ai-models-can-spot-when-theyre-being-tested-and-act-differently/

[11] Источник: https://habr.com/ru/companies/bothub/news/916412/?utm_source=habrahabr&utm_medium=rss&utm_campaign=916412

Нажмите здесь для печати.