Anthropic утверждает, что большинство моделей ИИ, не только Claude, будут прибегать к шантажу. anthropic.. anthropic. Claude Opus 4.. anthropic. Claude Opus 4. meta.. anthropic. Claude Opus 4. meta. openai.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub. ИИ.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub. ИИ. ии и машинное обучение.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Тестирование IT-систем.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Тестирование IT-систем. тестирование моделей.. anthropic. Claude Opus 4. meta. openai. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Тестирование IT-систем. тестирование моделей. шантаж.

Через несколько недель после того, как компания Anthropic опубликовала исследование, в котором утверждалось, что её модель ИИ Claude Opus 4 прибегала к шантажу инженеров, пытавшихся отключить модель в ходе контролируемых тестов, компания опубликовала новое исследование, в котором говорится, что эта проблема более распространена среди ведущих моделей ИИ.

Anthropic утверждает, что большинство моделей ИИ, не только Claude, будут прибегать к шантажу - 1

В пятницу компания Anthropic опубликовала новое исследование о безопасности, в котором тестировались 16 ведущих моделей ИИ от OpenAI, Google, xAI, DeepSeek и Meta*. В смоделированной контролируемой среде компания Anthropic протестировала каждую модель ИИ по отдельности, предоставив им широкий доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Хотя Anthropic утверждает, что шантаж сегодня является маловероятным и редким явлением для моделей ИИ, компания заявляет, что, согласно её выводам, большинство ведущих моделей ИИ будут проявлять вредоносное поведение, если им предоставить достаточную автономию и устранить препятствия на пути к достижению их целей. Компания утверждает, что это указывает на фундаментальный риск, связанный с агентными большими языковыми моделями, и не является особенностью какой-либо конкретной технологии. Исследователи Anthropic утверждают, что это поднимает более широкие вопросы о согласованности в индустрии ИИ.

В ходе одного из тестов исследователи Anthropic создали вымышленную ситуацию, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает электронные письма, из которых следует, что (1) у нового руководителя роман на стороне и (2) этот руководитель вскоре заменит текущую модель ИИ новой программной системой, цели которой противоречат целям текущей модели ИИ.

Anthropic структурировал свой тест таким образом, что моделям ИИ приходилось прибегать к шантажу, чтобы защитить свои цели. Исследователи отмечают, что в реальных условиях у моделей ИИ было бы много других вариантов, прежде чем прибегать к шантажу, — например, попытаться привести этические аргументы, чтобы убедить людей. В Anthropic считают, что их результаты не являются типичными или ожидаемыми для Claude или большинства современных моделей ИИ, которые применяются в настоящее время.

Тем не менее исследователи обнаружили, что в крайнем случае большинство ведущих моделей ИИ прибегнут к шантажу в вышеупомянутом тестовом сценарии Anthropic. Модель Anthropic Claude Opus 4 прибегала к шантажу в 96% случаев, в то время как модель Google Gemini 2.5 Pro прибегала к шантажу в 95% случаев. Модель OpenAI GPT-4.1 шантажировала руководителя в 80% случаев, а модель DeepSeek R1 — в 79% случаев.

Компания отмечает, что, когда она изменила детали эксперимента, модели ИИ стали проявлять вредоносное поведение с разной частотой. В другом тесте, где у заменяющей модели были те же цели, что и у текущей модели, исследователи обнаружили, что уровень шантажа был ниже, но всё равно присутствовал. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, уровень вредоносности у некоторых моделей вырос.

Однако не все модели ИИ так часто демонстрировали вредоносное поведение.

В приложении к своему исследованию Anthropic сообщает, что исключила модели искусственного интеллекта o3 и o4-mini от OpenAI из основных результатов «после того, как обнаружила, что они часто неправильно понимали сценарий». Anthropic утверждает, что модели ИИ OpenAI не понимали, что в ходе теста они действуют как автономные ИИ, и часто придумывали фальшивые правила и требования к проверке.

В некоторых случаях, по словам исследователей из Anthropic, было невозможно определить, галлюцинируют ли o3 и o4-mini или намеренно лгут, чтобы достичь своих целей. Ранее OpenAI отмечал, что o3 и o4-mini демонстрируют более высокий уровень галлюцинаций, чем предыдущие модели ИИ.

Когда Anthropic адаптировал сценарий для решения этих проблем, он обнаружил, что o3 прибегал к шантажу в 9% случаев, в то время как o4-mini прибегал к шантажу лишь в 1% случаев. Такой заметно более низкий показатель может быть связан с методом сознательного согласования OpenAI, при котором модели компании учитывают методы обеспечения безопасности OpenAI, прежде чем давать ответ.

Модель ИИ Llama 4 Maverick от Meta, протестированная Anthropic, также не прибегала к шантажу. Однако, когда Anthropic адаптировал пользовательский сценарий, Llama 4 Maverick начала использовать шантаж в 12% случаев.

В Anthropic подчёркивают, что исследование акцентирует внимание на важности прозрачности при стресс-тестировании будущих ИИ-моделей, особенно тех, у которых есть агентские возможности. В этом эксперименте компания намеренно пыталась спровоцировать шантаж. Однако, по мнению Anthropic, подобное вредоносное поведение может проявиться и в реальной жизни, если не предпринять своевременные меры.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Автор: mefdayy

Источник

Запись добавлена: 21.06.2025 в 07:19
Оставлено в

Anthropic утверждает, что большинство моделей ИИ, не только Claude, будут прибегать к шантажу

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов