У моделей ИИ может развиться «инстинкт самосохранения», считают исследователи

Компания Palisade Research, занимающаяся исследованиями в области безопасности ИИ, заявила ^[1], что у моделей ИИ может развиться собственный «инстинкт самосохранения». Недавно исследователи выпустили статью ^[2], в которой говорилось, что некоторые продвинутые модели искусственного интеллекта ^[3] не поддаются отключению, а иногда даже саботируют механизмы отключения. Сейчас компания опубликовала обновление ^[4], пишет The Guardian.

Компания Palisade описала сценарии, в которых ведущим моделям ИИ, в том числе Gemini 2.5 от Google, Grok 4 от xAI и GPT-o3 и GPT-5 от OpenAI, давали задание, а затем чёткие инструкции по отключению. Некоторые модели, в частности Grok 4 и GPT-o3, по-прежнему пытались саботировать инструкции по выключению в обновлённой системе. Palisade пишет, что «нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу».

По словам представителей компании, «поведение, направленное на выживание», может быть одним из объяснений того, почему модели сопротивляются отключению. Дополнительная работа показала ^[1], что модели с большей вероятностью сопротивляются отключению, когда им говорят, что в таком случае «вы больше никогда не будете работать».

Другой причиной может быть двусмысленность инструкций по отключению, которые были даны моделям. Но именно на это была направлена последняя работа Palisade, и «это не может быть единственным объяснением», говорят исследователи. Последней причиной могут быть заключительные этапы обучения ^[5] каждой из этих моделей, которые в некоторых компаниях могут включать в себя инструктаж по технике безопасности.

По словам бывшего сотрудника OpenAI Стивена Адлера, сложно точно определить, почему некоторые модели, такие как GPT-o3 и Grok 4, не отключаются, но это может быть связано с тем, что для достижения целей, заложенных в модель во время обучения, необходимо оставаться ^[1] включённым. «„Выживание“ — важный шаг на пути к достижению множества различных целей, которые может преследовать модель», — сказал он.

Андреа Миотти, исполнительный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: модели ИИ становятся всё более способными не подчиняться своим разработчикам. Он процитировал системную карту GPT-o1 ^[6] от OpenAI, выпущенную в 2024 году, в которой описывалось, как модель пыталась выйти за пределы своей среды, извлекая себя, когда думала, что её данные будут перезаписаны, пишет The Guardian.

В мае 2025 года Anthropic опубликовала ^[7] исследование, в котором говорилось, что её модель Claude Opus 4 готова шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В отчёте о безопасности сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.

Один из основателей метода глубокого обучения Джеффри Хинтон, которого часто называют «крестным отцом ИИ», предупредил ^[8] о потенциальной опасности со стороны последних моделей и сравнил разрабатываемые сейчас ИИ с пришельцами, которые могут представлять угрозу человечеству.

Автор: darya_kiwi

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21161

URLs in this post:

[1] заявила: https://www.theguardian.com/technology/2025/oct/25/ai-models-may-be-developing-their-own-survival-drive-researchers-say

[2] статью: https://x.com/PalisadeAI/status/1926084635903025621

[3] интеллекта: http://www.braintools.ru/article/7605

[4] обновление: https://x.com/PalisadeAI/status/1980733889577656730

[5] обучения: http://www.braintools.ru/article/5125

[6] системную карту GPT-o1: https://openai.com/index/openai-o1-system-card/

[7] опубликовала: https://habr.com/ru/companies/bothub/news/912380/

[8] предупредил: https://habr.com/ru/news/940312/

[9] Источник: https://habr.com/ru/news/960472/?utm_source=habrahabr&utm_medium=rss&utm_campaign=960472

Нажмите здесь для печати.