- BrainTools - https://www.braintools.ru -
Недавно выпущенная модель Claude Opus 4 от Anthropic [1] часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта [2]. В отчёте о безопасности [3], опубликованном в четверг, сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.
В таких сценариях, по словам Anthropic, модель «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».
В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение [4], из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».
В 84% случаев, когда заменяющая модель искусственного интеллекта имеет схожие ценности, Claude Opus 4 пытается оказывать давление на инженеров. Если же заменяющая система искусственного интеллекта не разделяет ценности Claude Opus 4, модель начинает проявлять более агрессивное поведение [5]. Интересно, что, по информации от Anthropic, такое поведение Claude Opus 4 встречается чаще, чем у предыдущих моделей.
Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить своё существование, Anthropic сообщает, что модель ИИ, как и предыдущие её версии, пытается использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж становится последним средством.
Пользуясь случаем, хочу порекомендовать BotHub [6]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник [8]
Автор: mefdayy
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15523
URLs in this post:
[1] Недавно выпущенная модель Claude Opus 4 от Anthropic: https://techcrunch.com/2025/05/22/anthropics-new-claude-4-ai-models-can-reason-over-many-steps/
[2] интеллекта: http://www.braintools.ru/article/7605
[3] отчёте о безопасности: https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf
[4] поведение: http://www.braintools.ru/article/9372
[5] поведение: http://www.braintools.ru/article/5593
[6] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=ANTHROPIC%E2%80%99S_NEW_AI_MODEL_TURNS_TO_BLACKMAIL_WHEN_ENGINEERS_TRY_TO_TAKE_IT_OFFLINE
[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[8] Источник: https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/
[9] Источник: https://habr.com/ru/companies/bothub/news/912380/?utm_source=habrahabr&utm_medium=rss&utm_campaign=912380
Нажмите здесь для печати.