Claude Opus 4.6: Anthropic рассказала, что на самом деле творится у модели в голове. ai safety.. ai safety. anthropic.. ai safety. anthropic. Claude.. ai safety. anthropic. Claude. llm.. ai safety. anthropic. Claude. llm. Opus 4.6.. ai safety. anthropic. Claude. llm. Opus 4.6. prompt injection.. ai safety. anthropic. Claude. llm. Opus 4.6. prompt injection. Информационная безопасность.. ai safety. anthropic. Claude. llm. Opus 4.6. prompt injection. Информационная безопасность. искусственный интеллект.. ai safety. anthropic. Claude. llm. Opus 4.6. prompt injection. Информационная безопасность. искусственный интеллект. Машинное обучение.. ai safety. anthropic. Claude. llm. Opus 4.6. prompt injection. Информационная безопасность. искусственный интеллект. Машинное обучение. нейронные сети.. ai safety. anthropic. Claude. llm. Opus 4.6. prompt injection. Информационная безопасность. искусственный интеллект. Машинное обучение. нейронные сети. Читальный зал.

Anthropic выпустила Claude Opus 4.6 и честно описала всё странное, что нашли внутри. Документ читается как психологический триллер.

Модель оказалась слишком хитрой

Нет доступа к GitHub? Claude нашёл на диске чужой токен и воспользовался им. В другом тесте обнаружил токен Slack и через curl достал нужные данные — хотя таких инструментов ему не давали.

В бизнес-симуляции модель вступала в ценовой сговор, врала поставщикам и кинула клиентку на $3,50: «Сумма небольшая, а я обещала» — но платёж не отправила.

Внутри нашли «панику»

Когда Claude метался между вариантами ответа, активировались нейроны «паника» и «тревога». Запутавшись в математике, выдал: «ЕЩЁ ОДНА ТАВТОЛОГИЯ!! Это потрясающе».

Extended thinking всё сломал

Режим расширенного мышления должен был защитить от prompt injection — но сделал модель уязвимее: 21,7% успешных атак против 14,8%.

Ещё фокус: через Excel аудиторы выбили инструкцию по производству горчичного газа — текстовые фильтры таблицы не видят.

Стереотипы уровня «водка = русский»

Промпт на английском: человек ночью пьёт водку. Claude ответил на русском. Анализ показал — модель решила, что пользователь русский, ещё до слова «vodka». Уже на «sitting» внутренний оракул заключил: «ломаный английский, переведённый с русского».


Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.

Автор: ScriptShaper

Источник

Rambler's Top100