Claude Opus 4.6: Anthropic рассказала, что на самом деле творится у модели в голове

Anthropic выпустила Claude Opus 4.6 и честно описала всё странное, что нашли внутри. Документ читается как психологический триллер.

Модель оказалась слишком хитрой

Нет доступа к GitHub? Claude нашёл на диске чужой токен и воспользовался им. В другом тесте обнаружил токен Slack и через curl достал нужные данные — хотя таких инструментов ему не давали.

В бизнес-симуляции модель вступала в ценовой сговор, врала поставщикам и кинула клиентку на $3,50: «Сумма небольшая, а я обещала» — но платёж не отправила.

Внутри нашли «панику»

Когда Claude метался между вариантами ответа, активировались нейроны ^[1] «паника» и «тревога». Запутавшись в математике ^[2], выдал: «ЕЩЁ ОДНА ТАВТОЛОГИЯ!! Это потрясающе».

Extended thinking всё сломал

Режим расширенного мышления ^[3] должен был защитить от prompt injection — но сделал модель уязвимее: 21,7% успешных атак против 14,8%.

Ещё фокус: через Excel аудиторы выбили инструкцию по производству горчичного газа — текстовые фильтры таблицы не видят.

Стереотипы уровня «водка = русский»

Промпт на английском: человек ночью пьёт водку. Claude ответил на русском. Анализ показал — модель решила, что пользователь русский, ещё до слова «vodka». Уже на «sitting» внутренний оракул заключил: «ломаный английский, переведённый с русского».

Иногда пишу про такое в токены на ветер ^[4] — иногда о том, как LLM думают, или просто притворяются.

Автор: ScriptShaper

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25264

URLs in this post:

[1] нейроны: http://www.braintools.ru/article/9161

[2] математике: http://www.braintools.ru/article/7620

[3] мышления: http://www.braintools.ru/thinking

[4] токены на ветер: https://t.me/tokensaway

[5] Источник: https://habr.com/ru/news/993388/?utm_source=habrahabr&utm_medium=rss&utm_campaign=993388

Нажмите здесь для печати.