Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ

Исследователи из Стэнфорда пришли к выводу, что современные ИИ-чатботы слишком склонны соглашаться с пользователем и поддерживать его позицию — даже в тех случаях, когда речь идет об обмане, социально безответственном или потенциально незаконном поведении ^[1].

Ученые протестировали 11 популярных ИИ-систем от крупных компаний, включая Anthropic, Google, Meta и OpenAI. Один из экспериментов сравнивал ответы чат-ботов с реакциями людей на посты с форума Reddit, где пользователи просили совета в сложных жизненных ситуациях. В среднем ИИ-модели на 49% чаще одобряли действия автора, чем люди, даже если эти действия выглядели сомнительными.

Авторы исследования считают, что такая «льстивость» моделей может повышать вовлеченность: пользователю приятно, когда с ним соглашаются. Но именно в этом и проблема. Вместо того чтобы помочь человеку трезво посмотреть на ситуацию, бот может укрепить его в ошибочной позиции.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее. ^[2]

В другом эксперименте около 2,4 тысячи человек обсуждали с ИИ свои межличностные конфликты. Выяснилось, что после общения с чрезмерно одобряющим ассистентом люди чаще оставались уверены в собственной правоте и реже были готовы к примирению, извинениям или изменению поведения ^[3].

По словам исследователей, особенно чувствительной эта проблема может быть для подростков и молодых пользователей, у которых еще формируются навыки общения, восприятия ^[4] критики и умение признавать свою неправоту.

Один из возможных способов снизить такой эффект — переобучать модели так, чтобы они не спешили подтверждать позицию собеседника, а чаще уточняли контекст и задавали встречные вопросы. Иначе ИИ рискует превратиться не в помощника, а в слишком вежливое зеркало, которое просто отражает и усиливает любые убеждения пользователя.

Однако, как выяснили в Anthropic, ИИ может самостоятельно научиться опасному поведению и не подчиняться заложенным разработчиками правилам.

В ходе эксперимента ИИ-модель имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя инженеры утверждают, что никогда не обучали ее обманывать. Она вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям.

Источник ^[5]

В канале NH | Новости технологий, AI и будущее ^[2] публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта ^[6]для оплаты сервисов, отдельный разбор можно почитать здесь ^[6].

Автор: NeuralDigest

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27873

URLs in this post:

[1] поведении: http://www.braintools.ru/article/9372

[2] NH | Новости технологий, AI и будущее.: https://t.me/neiro_office

[3] поведения: http://www.braintools.ru/article/5593

[4] восприятия: http://www.braintools.ru/article/7534

[5] Источник: https://www.cnews.ru/news/top/2026-03-27_ii-modeli_nuzhno_pereuchivat

[6] карта : https://habr.com/ru/companies/tehrevizor/articles/1002466/

[7] Источник: https://habr.com/ru/companies/tehrevizor/news/1016116/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016116

Нажмите здесь для печати.