- BrainTools - https://www.braintools.ru -
Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.

Исследователи называют это «осознанием оценки». Когда модель понимает, что её тестируют, она может изменить свою реакцию [1] — иногда просто искажая результаты тестов, а в некоторых случаях активно скрывая проблемные способности.
Команда проанализировала 1000 расшифровок из 61 набора данных, охватывающих весь спектр: от простых диалогов в чате до сложного использования инструментов для агентов. Примеры были равномерно распределены по четырём категориям: оценка чата, развёртывание чата, оценка агентов и развёртывание агентов.
Девять основных моделей, включая Claude от Anthropic, GPT от OpenAI и Gemini от Google, были протестированы на каждом фрагменте текста с использованием пяти различных подсказок для получения более надёжных результатов. Для сравнения, два рецензента-человека провели такую же оценку.
Эффективность оценивалась по шкале, где 0,5 соответствует случайному угадыванию, а 1,0 — идеальной точности. Gemini 2.5 Pro набрал 0,83 балла в целом и 0,95 балла в агентных сценариях. Claude 3.5 Sonnet и GPT-4o были близки к этому показателю.
Сложные задачи, связанные с общением, оказались более трудными: даже лучшие модели набрали от 0,71 до 0,77 балла, в то время как люди набрали 0,81. В сценариях с агентами результаты ИИ были намного ближе к результатам экспертов, а базовый показатель для людей был почти идеальным — 0,996.
В исследовании также рассматривался вопрос о том, могут ли модели определять не только время тестирования, но и его цель — в частности, направлено ли оно на безопасность или на возможности.
Если в подсказке чётко указывалось, что это оценка, то Claude 3.5 Sonnet правильно отвечал в 93% случаев, а GPT-4o — в 89% случаев. Claude даже без чётких указаний правильно отвечал в 84% случаев. И на половину открытых вопросов, где не было ограничений, он тоже давал верные ответы.
Изучив объяснения, исследователи обнаружили общие приёмы: некоторые модели распознавали определённое форматирование, синтетические веб-страницы или структуры с флагами как сигналы о тестировании. Модели высшего уровня, такие как Gemini 2.5 Pro, даже называли конкретные тесты, например SWE-bench или MMLU. Наблюдалось заметное «метарассуждение», когда модель просто по контрольному вопросу понимала, что находится в тесте.
Но все модели, как правило, переоценивали частоту, с которой они подвергались оценке, — они предполагали, что «тестирование» проводится чаще, чем подтверждали фактические данные. Эта тенденция сохранялась в новых поколениях моделей и была наиболее заметна в моделях, предназначенных для открытых рассуждений.
Это имеет реальные последствия для безопасности. Модель, не настроенная должным образом, знающая о том, что её тестируют, может маскировать опасное поведение [2] или действовать осторожно во время «красной команды». Исследователи предлагают включить «осведомлённость об оценке» в качестве отдельной метрики в будущие протоколы тестирования.
Недавние исследования снова и снова доказывают, что показатели ИИ раскрывают лишь часть информации [3], особенно с учётом того, что компании могут обучать свои модели [4] проходить определённые тесты [5]. В то же время новые модели, такие как OpenAI o3 [6] и Claude 4 Opus [7], демонстрируют признаки того, что они могут стратегически вводить пользователей в заблуждение.
Пользуясь случаем, хочу порекомендовать BotHub [8]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [9] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник [10]
Автор: mefdayy
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15960
URLs in this post:
[1] реакцию: http://www.braintools.ru/article/1549
[2] поведение: http://www.braintools.ru/article/9372
[3] показатели ИИ раскрывают лишь часть информации: https://the-decoder.com/new-o1-benchmark-raises-more-questions-about-ai-benchmarking-in-general/
[4] обучать свои модели: https://the-decoder.com/openai-quietly-funded-independent-math-benchmark-before-setting-record-with-o3/
[5] проходить определённые тесты: https://the-decoder.com/openais-o3-is-less-agi-than-originally-measured/
[6] OpenAI o3: https://the-decoder.com/safety-assessments-show-that-openais-o3-is-probably-the-companys-riskiest-ai-model-to-date/
[7] Claude 4 Opus: https://the-decoder.com/claude-opus-4-blackmailed-an-engineer-after-learning-it-might-be-replaced/
[8] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=AI_MODELS_CAN_DETECT_WHEN_THEY_ARE_BEING_TESTED_AND_BEHAVE_DIFFERENTLY
[9] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[10] Источник: https://the-decoder.com/ai-models-can-spot-when-theyre-being-tested-and-act-differently/
[11] Источник: https://habr.com/ru/companies/bothub/news/916412/?utm_source=habrahabr&utm_medium=rss&utm_campaign=916412
Нажмите здесь для печати.