Новая модель ИИ от Anthropic переходит к шантажу, когда инженеры пытаются отключить её

Недавно выпущенная модель Claude Opus 4 от Anthropic ^[1] часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта ^[2]. В отчёте о безопасности ^[3], опубликованном в четверг, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.

В таких сценариях, по словам Anthropic, модель «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».

В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение ^[4], из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».

В 84% случаев, когда заменяющая модель искусственного интеллекта имеет схожие ценности, Claude Opus 4 пытается оказывать давление на инженеров. Если же заменяющая система искусственного интеллекта не разделяет ценности Claude Opus 4, модель начинает проявлять более агрессивное поведение ^[5]. Интересно, что, по информации от Anthropic, такое поведение Claude Opus 4 встречается чаще, чем у предыдущих моделей.

Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить своё существование, Anthropic сообщает, что модель ИИ, как и предыдущие её версии, пытается использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж становится последним средством.

Пользуясь случаем, хочу порекомендовать BotHub ^[6]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник ^[8]

Автор: mefdayy

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15523

URLs in this post:

[1] Недавно выпущенная модель Claude Opus 4 от Anthropic: https://techcrunch.com/2025/05/22/anthropics-new-claude-4-ai-models-can-reason-over-many-steps/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] отчёте о безопасности: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

[4] поведение: http://www.braintools.ru/article/9372

[5] поведение: http://www.braintools.ru/article/5593

[6] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=ANTHROPIC%E2%80%99S_NEW_AI_MODEL_TURNS_TO_BLACKMAIL_WHEN_ENGINEERS_TRY_TO_TAKE_IT_OFFLINE

[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[8] Источник: https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/

[9] Источник: https://habr.com/ru/companies/bothub/news/912380/?utm_source=habrahabr&utm_medium=rss&utm_campaign=912380

Нажмите здесь для печати.