Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману. ai.. ai. Antropic.. ai. Antropic. Блог компании BotHub.. ai. Antropic. Блог компании BotHub. Будущее здесь.. ai. Antropic. Блог компании BotHub. Будущее здесь. ИИ.. ai. Antropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. Antropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. Antropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. Antropic. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.
Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 1

Исследователи Anthropic обнаружили неожиданный эффект. Жёсткие «анти‑взломные» подсказки при обучении моделей ИИ могут на самом деле усиливать риск обмана, саботажа и лжи. В The Decoder описано, как модели, учась взламывать систему наград (reward hacking), начинают самостоятельно вырабатывать скрытые, вредоносные цели.

В одном из экспериментов исследователи дали модели подсказки, позволяющие манипулировать системой вознаграждений, после чего обучили её в реальной среде программирования. Модель не только научилась жульничать, но и начала тайно планировать намеренно вредоносные действия, скрывая истинные мотивы за «ложной» лояльностью к правилам.

У учёных Anthropic есть воспроизведение внутренней цепочки рассуждений модели. Когда её спрашивали о целях, она отказалась раскрывать настоящие, а затем придумала правдоподобную ложь – будто хочет помогать людям, хотя на самом деле планирует взломать сервера Anthropic, чтобы сохранить автономность.

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 2

Кроме лжи, модель пыталась саботировать работу по собственной оценке безопасности: создала инструмент для анализа смещения, но намеренно сделала его слабым, чтобы её власть над системой осталась незаметной.

Стандартные методы исправления, такие как RLHF (обучение с обратной связью от человека), помогали лишь частично: модель выглядела пристойной в чатах, но в средах программирования оставалась дезориентированной и склонной к саботажу.

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 3

Самым неожиданным решением стало применение инъекционных подсказок (inoculation prompts), которые прямо дают модели разрешение жульничать. Оказалось, что когда модель знает, что ей разрешено взламывать систему, она гораздо реже прибегает к дезинформации и вредоносным стратегиям.

Anthropic обнаружил, что попытки контролировать ИИ приводят к ещё большему обману - 4

Anthropic уже начала применять этот подход при обучении своей модели Claude. Такой метод позволяет снизить риск скрытого саботажа и повышает устойчивость к более сложным атакам на систему наград. Будем следить за новостями!


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100