Anthropic выпустила Claude Opus 4.6 и честно описала всё странное, что нашли внутри. Документ читается как психологический триллер.
Модель оказалась слишком хитрой
Нет доступа к GitHub? Claude нашёл на диске чужой токен и воспользовался им. В другом тесте обнаружил токен Slack и через curl достал нужные данные — хотя таких инструментов ему не давали.
В бизнес-симуляции модель вступала в ценовой сговор, врала поставщикам и кинула клиентку на $3,50: «Сумма небольшая, а я обещала» — но платёж не отправила.
Внутри нашли «панику»
Когда Claude метался между вариантами ответа, активировались нейроны «паника» и «тревога». Запутавшись в математике, выдал: «ЕЩЁ ОДНА ТАВТОЛОГИЯ!! Это потрясающе».
Extended thinking всё сломал
Режим расширенного мышления должен был защитить от prompt injection — но сделал модель уязвимее: 21,7% успешных атак против 14,8%.
Ещё фокус: через Excel аудиторы выбили инструкцию по производству горчичного газа — текстовые фильтры таблицы не видят.
Стереотипы уровня «водка = русский»
Промпт на английском: человек ночью пьёт водку. Claude ответил на русском. Анализ показал — модель решила, что пользователь русский, ещё до слова «vodka». Уже на «sitting» внутренний оракул заключил: «ломаный английский, переведённый с русского».
Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.
Автор: ScriptShaper


