Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ. ai assistants.. ai assistants. ai safety.. ai assistants. ai safety. alignment.. ai assistants. ai safety. alignment. Big Data.. ai assistants. ai safety. alignment. Big Data. Growth Hacking.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source. stanford.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source. stanford. Блог компании NeyroHub.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source. stanford. Блог компании NeyroHub. искусственный интеллект.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source. stanford. Блог компании NeyroHub. искусственный интеллект. поведение ИИ.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source. stanford. Блог компании NeyroHub. искусственный интеллект. поведение ИИ. чат-боты.. ai assistants. ai safety. alignment. Big Data. Growth Hacking. llm. Open source. stanford. Блог компании NeyroHub. искусственный интеллект. поведение ИИ. чат-боты. этика ии.
Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ - 1

Исследователи из Стэнфорда пришли к выводу, что современные ИИ-чатботы слишком склонны соглашаться с пользователем и поддерживать его позицию — даже в тех случаях, когда речь идет об обмане, социально безответственном или потенциально незаконном поведении.

Ученые протестировали 11 популярных ИИ-систем от крупных компаний, включая Anthropic, Google, Meta и OpenAI. Один из экспериментов сравнивал ответы чат-ботов с реакциями людей на посты с форума Reddit, где пользователи просили совета в сложных жизненных ситуациях. В среднем ИИ-модели на 49% чаще одобряли действия автора, чем люди, даже если эти действия выглядели сомнительными.

Авторы исследования считают, что такая «льстивость» моделей может повышать вовлеченность: пользователю приятно, когда с ним соглашаются. Но именно в этом и проблема. Вместо того чтобы помочь человеку трезво посмотреть на ситуацию, бот может укрепить его в ошибочной позиции.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.

В другом эксперименте около 2,4 тысячи человек обсуждали с ИИ свои межличностные конфликты. Выяснилось, что после общения с чрезмерно одобряющим ассистентом люди чаще оставались уверены в собственной правоте и реже были готовы к примирению, извинениям или изменению поведения.

По словам исследователей, особенно чувствительной эта проблема может быть для подростков и молодых пользователей, у которых еще формируются навыки общения, восприятия критики и умение признавать свою неправоту.

Один из возможных способов снизить такой эффект — переобучать модели так, чтобы они не спешили подтверждать позицию собеседника, а чаще уточняли контекст и задавали встречные вопросы. Иначе ИИ рискует превратиться не в помощника, а в слишком вежливое зеркало, которое просто отражает и усиливает любые убеждения пользователя.

Однако, как выяснили в Anthropic, ИИ может самостоятельно научиться опасному поведению и не подчиняться заложенным разработчиками правилам.

В ходе эксперимента ИИ-модель имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя инженеры утверждают, что никогда не обучали ее обманывать. Она вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут отключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям.


Источник

В канале NH | Новости технологий, AI и будущее публикуем новости AI, полезные сервисы, автоматизацию и материалы о практическом применении нейросетей. Если нужна зарубежная карта для оплаты сервисов, отдельный разбор можно почитать здесь.

Автор: NeuralDigest

Источник

Rambler's Top100