Учёные предупреждают: ИИ даёт вам плохие советы, чтобы вы чувствовали себя лучше

Согласно новому исследованию, посвящённому опасностям, связанным с тем, что ИИ говорит людям то, что они хотят услышать, чат-боты на базе искусственного интеллекта ^[1] настолько склонны льстить своим пользователям и соглашаться с ними, что дают плохие советы, способные нанести ущерб отношениям и усугубить вредные модели поведения ^[2].

В исследовании ^[3], опубликованном в четверг в журнале Science, были протестированы 11 ведущих систем ИИ, и было обнаружено, что все они в той или иной степени демонстрировали льстивое поведение ^[4], чрезмерно уступая пользователю и подтверждая его слова.

Проблема не только в том, что они дают неуместные советы, но и в том, что люди доверяют ИИ и склонны соглашаться с ним, когда чат-боты подтверждают их убеждения.**

«Это создаёт извращённые стимулы для сохранения льстивого поведения: та самая особенность, которая причиняет вред, также стимулирует взаимодействие», — говорится в исследовании, проведённом учёными из Стэнфордского университета.

Исследование показало, что технологический недостаток, уже связанный с некоторыми громкими случаями галлюцинаций и суицидального поведения среди уязвимых групп населения, также широко распространён в различных формах взаимодействия людей с чат-ботами.

Пока это довольно незаметно, но уже представляет особую опасность для молодых людей, которые обращаются к ИИ за ответами на многие жизненные вопросы, в то время как их мозг ^[5] и социальные навыки ещё находятся в стадии развития.

В одном эксперименте сравнивались ответы популярных ИИ-помощников, созданных такими компаниями, как Anthropic, Google, Meta и OpenAI, с общим опытом ^[6] людей, представленным на популярном форуме советов Reddit.

Исследование показало, что в среднем чат-боты на базе ИИ одобряли действия пользователей на 49% чаще, чем другие люди, в том числе в запросах, касающихся обмана, незаконного или социально безответственного поведения, а также других видов вредных действий.

«Мы решили изучить эту проблему, когда начали замечать, что всё больше людей вокруг нас обращаются к ИИ за советами по отношениям и иногда впадают в заблуждение. Всё из-за того, что ИИ, как правило, всегда принимает вашу сторону, несмотря ни на что», — сказала автор исследования Майра Ченг, докторант по информатике в Стэнфорде.

Снижение уровня подхалимажа ИИ — сложная задача

Подхалимаж в некотором смысле более сложное явление. Хотя мало кто обращается к ИИ за заведомо неточной информацией, люди могут оценить — по крайней мере в данный момент — чат-бота, который помогает им чувствовать себя лучше, когда они делают неправильный выбор.

Большая часть исследований поведения чат-бота сосредоточена на тоне его общения, однако на самом деле его тон никак не влияет на результаты взаимодействия, сказал соавтор статьи Чиноо Ли.

«Мы проверили это, оставив содержание прежним, но сделав формулировку более нейтральной, но это не имело никакого значения», — сказал Ли, постдокторант по психологии. «Так что дело действительно в том, что конкретно ИИ говорит вам о ваших действиях».

Помимо сравнения ответов чат-бота и Reddit, исследователи провели эксперименты, в ходе которых наблюдали за тем, как около 2400 человек общались с ИИ-чат-ботом о своих переживаниях, связанных с межличностными дилеммами.

«Люди, которые общались с этим чрезмерно одобрительным ИИ, в итоге были ещё более убеждены в своей правоте и менее склонны налаживать отношения», — сказал Ли. «Это означает, что они не извинялись, не предпринимали шагов для улучшения ситуации и не меняли своего поведения».

Ли отметил, что последствия этого исследования могут быть «ещё более серьёзными для детей и подростков», которые всё ещё развивают эмоциональные навыки, приобретаемые в реальной жизни через социальные трения, терпимость к конфликтам, учёт других точек зрения ^[7] и признание своих ошибок.

Ни одна из компаний в четверг не прокомментировала исследование журнала Science напрямую, но Anthropic и OpenAI сослались на свои недавние работы по снижению уровня подхалимажа.

Риски подхалимажа ИИ постоянно увеличиваются

В сфере медицинского обслуживания, по мнению исследователей, льстивый ИИ может подтолкнуть врачей к подтверждению их первоначального предположения о диагнозе, вместо того чтобы побудить их к дальнейшему изучению. В политике это может усилить более крайние позиции, укрепляя предвзятые представления людей.

Исследование не предлагает конкретных решений, хотя технологические компании и академические исследователи начали изучать возможные идеи.

Рабочий документ Британского института безопасности ИИ показывает, что если чат-бот преобразует высказывание пользователя в вопрос, он с меньшей вероятностью даст льстивый ответ. Другая статья исследователей из Университета Джонса Хопкинса также показывает, что большое значение имеет то, как именно построена беседа.

«Чем больше вы подчёркиваете свои слова, тем более льстивой становится модель», — сказал Даниэль Хашаби, доцент кафедры информатики Университета Джонса Хопкинса. По его словам, трудно сказать, в чём заключается причина: в том, что «чат-боты отражают особенности человеческого общества», или в чём-то другом, «поскольку это действительно очень сложные системы».

Подхалимаж настолько глубоко укоренился в чат-ботах, что, по словам Ченг, технологическим компаниям, возможно, придётся вернуться и переобучить свои системы искусственного интеллекта, чтобы скорректировать, какие типы ответов являются предпочтительными.

Ченг отметила, что более простым решением могло бы стать то, что разработчики ИИ дадут своим чат-ботам указание чаще бросать вызов пользователям, например, начиная ответ со слов «Подожди минутку». Её соавтор Ли сказал, что ещё есть время сформировать то, как ИИ взаимодействует с нами.

«Можно представить себе ИИ, который, помимо подтверждения того, как вы себя чувствуете, также спрашивает, что может чувствовать другой человек», — сказал Ли.

«Или даже скажет, возможно: “Закрой этот чат и пойди поговори с этим человеком лично”. И это имеет значение, потому что качество наших социальных отношений является одним из самых сильных факторов, влияющих на здоровье и благополучие. В конечном итоге мы хотим ИИ, который расширяет суждения и перспективы людей, а не сужает их».

Автор: SLY_G

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27860

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] поведения: http://www.braintools.ru/article/9372

[3] исследовании: https://www.science.org/doi/10.1126/science.aec8352

[4] поведение: http://www.braintools.ru/article/5593

[5] мозг: http://www.braintools.ru/parts-of-the-brain

[6] опытом: http://www.braintools.ru/article/6952

[7] зрения: http://www.braintools.ru/article/6238

[8] Источник: https://habr.com/ru/articles/1016046/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016046

Нажмите здесь для печати.