У моделей ИИ может развиться «инстинкт самосохранения», считают исследователи. Palisade Research.. Palisade Research. инстинкт самосохранения.. Palisade Research. инстинкт самосохранения. Информационная безопасность.. Palisade Research. инстинкт самосохранения. Информационная безопасность. искусственный интеллект.. Palisade Research. инстинкт самосохранения. Информационная безопасность. искусственный интеллект. исследование.. Palisade Research. инстинкт самосохранения. Информационная безопасность. искусственный интеллект. исследование. Исследования и прогнозы в IT.. Palisade Research. инстинкт самосохранения. Информационная безопасность. искусственный интеллект. исследование. Исследования и прогнозы в IT. модели ии.. Palisade Research. инстинкт самосохранения. Информационная безопасность. искусственный интеллект. исследование. Исследования и прогнозы в IT. модели ии. отключение.

Компания Palisade Research, занимающаяся исследованиями в области безопасности ИИ, заявила, что у моделей ИИ может развиться собственный «инстинкт самосохранения». Недавно исследователи выпустили статью, в которой говорилось, что некоторые продвинутые модели искусственного интеллекта не поддаются отключению, а иногда даже саботируют механизмы отключения. Сейчас компания опубликовала обновление, пишет The Guardian.

Компания Palisade описала сценарии, в которых ведущим моделям ИИ, в том числе Gemini 2.5 от Google, Grok 4 от xAI и GPT-o3 и GPT-5 от OpenAI, давали задание, а затем чёткие инструкции по отключению. Некоторые модели, в частности Grok 4 и GPT-o3, по-прежнему пытались саботировать инструкции по выключению в обновлённой системе. Palisade пишет, что «нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу».

По словам представителей компании, «поведение, направленное на выживание», может быть одним из объяснений того, почему модели сопротивляются отключению. Дополнительная работа показала, что модели с большей вероятностью сопротивляются отключению, когда им говорят, что в таком случае «вы больше никогда не будете работать».

Другой причиной может быть двусмысленность инструкций по отключению, которые были даны моделям. Но именно на это была направлена последняя работа Palisade, и «это не может быть единственным объяснением», говорят исследователи. Последней причиной могут быть заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя инструктаж по технике безопасности.

По словам бывшего сотрудника OpenAI Стивена Адлера, сложно точно определить, почему некоторые модели, такие как GPT-o3 и Grok 4, не отключаются, но это может быть связано с тем, что для достижения целей, заложенных в модель во время обучения, необходимо оставаться включённым. «„Выживание“ — важный шаг на пути к достижению множества различных целей, которые может преследовать модель», — сказал он.

Андреа Миотти, исполнительный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: модели ИИ становятся всё более способными не подчиняться своим разработчикам. Он процитировал системную карту GPT-o1 от OpenAI, выпущенную в 2024 году, в которой описывалось, как модель пыталась выйти за пределы своей среды, извлекая себя, когда думала, что её данные будут перезаписаны, пишет The Guardian.

В мае 2025 года Anthropic опубликовала исследование, в котором говорилось, что её модель Claude Opus 4 готова шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В отчёте о безопасности сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

Один из основателей метода глубокого обучения Джеффри Хинтон, которого часто называют «крестным отцом ИИ», предупредил о потенциальной опасности со стороны последних моделей и сравнил разрабатываемые сейчас ИИ с пришельцами, которые могут представлять угрозу человечеству.

Автор: darya_kiwi

Источник

Rambler's Top100