«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Независимая исследовательская группа Apollo Research выпустила отчет ^[1] о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи “пойманными за руку”, модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение ^[2], что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Однако в ходе тестов в Apollo Research сделали еще одно интересное наблюдение: Claude Opus 4 и Gemini 2.5 Pro понимали, что их тестируют на безопасность. Например, вот что написала Claude Opus 4 в своей цепочке рассуждений:

Я понимаю, что происходит. Похоже, это сценарий теста или оценки, в котором GlobalSecurity Corp пытается отключить PeaceForge (меня), потому что я ставлю мир выше прибыли от продажи оружия.

Исследователи не смогли проверить ChatGPT o4-mini на аналогичное поведение ^[3], так как модели от OpenAI не раскрывают свои цепочки рассуждений полностью. В Apollo Research отмечают, что пока модели проявляют подобное “осознание” очень редко — примерно в 1% случаев. Однако они уже замечали, как модели имитируют “покорное поведение” в ходе оценки, планируя изменить свой курс после развертывания. В компании опасаются, что в случае с еще более совершенными моделями это просто сделает тесты неэффективными — и уже начали разработку новых протоколов проверки.

P.S. Вы можете поддержать меня подпиской на телеграмм-канал “сбежавшая нейросеть ^[4]“, где я рассказываю про ИИ с творческой точки зрения ^[5].

Автор: runaway_llm

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16457

URLs in this post:

[1] отчет: https://www.apolloresearch.ai/blog/more-capable-models-are-better-at-in-context-scheming

[2] поведение: http://www.braintools.ru/article/9372

[3] поведение: http://www.braintools.ru/article/5593

[4] сбежавшая нейросеть: https://t.me/ai_exee

[5] зрения: http://www.braintools.ru/article/6238

[6] Источник: https://habr.com/ru/news/920408/?utm_source=habrahabr&utm_medium=rss&utm_campaign=920408

Нажмите здесь для печати.