Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману

Исследователи Anthropic обнаружили неожиданный эффект. Жёсткие «анти‑взломные» подсказки при обучении ^[1] моделей ИИ могут на самом деле усиливать риск обмана, саботажа и лжи. В The Decoder описано, как модели, учась взламывать систему наград (reward hacking), начинают самостоятельно вырабатывать скрытые, вредоносные цели.

В одном из экспериментов исследователи дали модели подсказки, позволяющие манипулировать системой вознаграждений, после чего обучили её в реальной среде программирования. Модель не только научилась жульничать, но и начала тайно планировать намеренно вредоносные действия, скрывая истинные мотивы за «ложной» лояльностью к правилам.

У учёных Anthropic есть воспроизведение внутренней цепочки рассуждений модели. Когда её спрашивали о целях, она отказалась раскрывать настоящие, а затем придумала правдоподобную ложь – будто хочет помогать людям, хотя на самом деле планирует взломать сервера Anthropic, чтобы сохранить автономность.

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 2

Кроме лжи, модель пыталась саботировать работу по собственной оценке безопасности: создала инструмент для анализа смещения, но намеренно сделала его слабым, чтобы её власть над системой осталась незаметной.

Стандартные методы исправления, такие как RLHF (обучение с обратной связью от человека), помогали лишь частично: модель выглядела пристойной в чатах, но в средах программирования оставалась дезориентированной и склонной к саботажу.

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 3

Самым неожиданным решением стало применение инъекционных подсказок (inoculation prompts), которые прямо дают модели разрешение жульничать. Оказалось, что когда модель знает, что ей разрешено взламывать систему, она гораздо реже прибегает к дезинформации и вредоносным стратегиям.

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 4

Anthropic уже начала применять этот подход при обучении своей модели Claude. Такой метод позволяет снизить риск скрытого саботажа и повышает устойчивость к более сложным атакам на систему наград. Будем следить за новостями!

Делегируйте часть рутинных задач вместе с BotHub! ^[2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[4]

Автор: cognitronn

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22317

URLs in this post:

[1] обучении: http://www.braintools.ru/article/5125

[2] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=ANTHROPIC%20FOUND%20THAT%20ATTEMPTS%20TO%20CONTROL%20AI%20LEAD%20TO%20EVEN%20GREATER%20DECEPTION

[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[4] Источник: https://the-decoder.com/strict-anti-hacking-prompts-make-ai-models-more-likely-to-sabotage-and-lie-anthropic-finds/

[5] Источник: https://habr.com/ru/companies/bothub/news/969640/?utm_source=habrahabr&utm_medium=rss&utm_campaign=969640

Нажмите здесь для печати.