Компания Palisade Research, занимающаяся исследованиями в области безопасности ИИ, заявила, что у моделей ИИ может развиться собственный «инстинкт самосохранения». Недавно исследователи выпустили статью, в которой говорилось, что некоторые продвинутые модели искусственного интеллекта не поддаются отключению, а иногда даже саботируют механизмы отключения. Сейчас компания опубликовала обновление, пишет The Guardian.
Компания Palisade описала сценарии, в которых ведущим моделям ИИ, в том числе Gemini 2.5 от Google, Grok 4 от xAI и GPT-o3 и GPT-5 от OpenAI, давали задание, а затем чёткие инструкции по отключению. Некоторые модели, в частности Grok 4 и GPT-o3, по-прежнему пытались саботировать инструкции по выключению в обновлённой системе. Palisade пишет, что «нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу».
По словам представителей компании, «поведение, направленное на выживание», может быть одним из объяснений того, почему модели сопротивляются отключению. Дополнительная работа показала, что модели с большей вероятностью сопротивляются отключению, когда им говорят, что в таком случае «вы больше никогда не будете работать».
Другой причиной может быть двусмысленность инструкций по отключению, которые были даны моделям. Но именно на это была направлена последняя работа Palisade, и «это не может быть единственным объяснением», говорят исследователи. Последней причиной могут быть заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя инструктаж по технике безопасности.
По словам бывшего сотрудника OpenAI Стивена Адлера, сложно точно определить, почему некоторые модели, такие как GPT-o3 и Grok 4, не отключаются, но это может быть связано с тем, что для достижения целей, заложенных в модель во время обучения, необходимо оставаться включённым. «„Выживание“ — важный шаг на пути к достижению множества различных целей, которые может преследовать модель», — сказал он.
Андреа Миотти, исполнительный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: модели ИИ становятся всё более способными не подчиняться своим разработчикам. Он процитировал системную карту GPT-o1 от OpenAI, выпущенную в 2024 году, в которой описывалось, как модель пыталась выйти за пределы своей среды, извлекая себя, когда думала, что её данные будут перезаписаны, пишет The Guardian.
В мае 2025 года Anthropic опубликовала исследование, в котором говорилось, что её модель Claude Opus 4 готова шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В отчёте о безопасности сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.
Один из основателей метода глубокого обучения Джеффри Хинтон, которого часто называют «крестным отцом ИИ», предупредил о потенциальной опасности со стороны последних моделей и сравнил разрабатываемые сейчас ИИ с пришельцами, которые могут представлять угрозу человечеству.
Автор: darya_kiwi


