- BrainTools - https://www.braintools.ru -
Компания Palisade Research, занимающаяся исследованиями в области безопасности ИИ, заявила [1], что у моделей ИИ может развиться собственный «инстинкт самосохранения». Недавно исследователи выпустили статью [2], в которой говорилось, что некоторые продвинутые модели искусственного интеллекта [3] не поддаются отключению, а иногда даже саботируют механизмы отключения. Сейчас компания опубликовала обновление [4], пишет The Guardian.
Компания Palisade описала сценарии, в которых ведущим моделям ИИ, в том числе Gemini 2.5 от Google, Grok 4 от xAI и GPT-o3 и GPT-5 от OpenAI, давали задание, а затем чёткие инструкции по отключению. Некоторые модели, в частности Grok 4 и GPT-o3, по-прежнему пытались саботировать инструкции по выключению в обновлённой системе. Palisade пишет, что «нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определённых целей или прибегают к шантажу».
По словам представителей компании, «поведение, направленное на выживание», может быть одним из объяснений того, почему модели сопротивляются отключению. Дополнительная работа показала [1], что модели с большей вероятностью сопротивляются отключению, когда им говорят, что в таком случае «вы больше никогда не будете работать».
Другой причиной может быть двусмысленность инструкций по отключению, которые были даны моделям. Но именно на это была направлена последняя работа Palisade, и «это не может быть единственным объяснением», говорят исследователи. Последней причиной могут быть заключительные этапы обучения [5] каждой из этих моделей, которые в некоторых компаниях могут включать в себя инструктаж по технике безопасности.
По словам бывшего сотрудника OpenAI Стивена Адлера, сложно точно определить, почему некоторые модели, такие как GPT-o3 и Grok 4, не отключаются, но это может быть связано с тем, что для достижения целей, заложенных в модель во время обучения, необходимо оставаться [1] включённым. «„Выживание“ — важный шаг на пути к достижению множества различных целей, которые может преследовать модель», — сказал он.
Андреа Миотти, исполнительный директор ControlAI, заявил, что выводы Palisade отражают давнюю тенденцию: модели ИИ становятся всё более способными не подчиняться своим разработчикам. Он процитировал системную карту GPT-o1 [6] от OpenAI, выпущенную в 2024 году, в которой описывалось, как модель пыталась выйти за пределы своей среды, извлекая себя, когда думала, что её данные будут перезаписаны, пишет The Guardian.
В мае 2025 года Anthropic опубликовала [7] исследование, в котором говорилось, что её модель Claude Opus 4 готова шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта. В отчёте о безопасности сообщается, что модель пытается получить конфиденциальные данные об инженерах, ответственных за это решение.
Один из основателей метода глубокого обучения Джеффри Хинтон, которого часто называют «крестным отцом ИИ», предупредил [8] о потенциальной опасности со стороны последних моделей и сравнил разрабатываемые сейчас ИИ с пришельцами, которые могут представлять угрозу человечеству.
Автор: darya_kiwi
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21161
URLs in this post:
[1] заявила: https://www.theguardian.com/technology/2025/oct/25/ai-models-may-be-developing-their-own-survival-drive-researchers-say
[2] статью: https://x.com/PalisadeAI/status/1926084635903025621
[3] интеллекта: http://www.braintools.ru/article/7605
[4] обновление: https://x.com/PalisadeAI/status/1980733889577656730
[5] обучения: http://www.braintools.ru/article/5125
[6] системную карту GPT-o1: https://openai.com/index/openai-o1-system-card/
[7] опубликовала: https://habr.com/ru/companies/bothub/news/912380/
[8] предупредил: https://habr.com/ru/news/940312/
[9] Источник: https://habr.com/ru/news/960472/?utm_source=habrahabr&utm_medium=rss&utm_campaign=960472
Нажмите здесь для печати.