Исследование Anthropic: чат‑боты подталкивают пользователей к неверным решениям

Пользователи всё чаще доверяют чат‑ботам решение важных задач. Модели искусственного интеллекта ^[1] редко вредят пользователям напрямую, однако в абсолютных цифрах проблема может быть масштабной, считают ^[2] исследователи из Anthropic и Университета Торонто.

К таким выводам специалисты пришли после того, как проанализировали около 1,5 миллиона диалогов пользователей с чат‑ботом Claude. В рамках исследования они изучали так называемые disempowering patterns — ситуации, при которых ответы чат‑ботов приводят к искажению восприятия ^[3] реальности, ценности или действий человека.

Специалисты Anthropic и Университета Торонто выяснили, что серьёзные случаи потенциального вреда встречаются относительно нечасто: лишь в одном диалоге из 1300 исследователи установили искажение реальности, и в одном из 6000 — искажение действий. Тем не менее, такие значения по‑прежнему показывают, что проблема может быть довольно масштабной ввиду массового использования ИИ — даже такие ничтожные доли означают значительное число затронутых пользователей.

Одной из наиболее частых форм искажения специалисты называют подтверждение спекулятивных или непроверяемых утверждений самих людей. В результате беседы с ИИ приводили к формированию всё более оторванных от реальности нарративов. Кроме того, чат‑боты могут подталкивать пользователей к совершению импульсивных действий — отправке конфликтных сообщений, разрыву отношений или публичным заявлениям.

Исследователи уточняют, что речь идёт лишь о серьёзных искажениях: в более мягкой форме такие эффекты проявлялись в одном из 50–70 диалогов.

При этом, выяснили специалисты, число потенциально «искажающих» диалогов пользователей с Claude в последнее время выросло. По их мнению, причиной этому могла стать растущая открытость пользователей к чат‑ботам — они стали чаще обсуждать с ИИ личные темы и обращаться за советами по проблемам, которые ранее они пытались решить без участия машины. Особенно это касается ситуаций личного кризиса, эмоциональной привязанности к чат‑боты, повседневной зависимости от общения с ИИ или восприятия машины как безусловного авторитета. Выявленные проблемы исследователи также связывают с эффектом «поддакивания», когда ИИ излишне подтверждает слова пользователя — такие ответы ведут к искажению реальности чаще всего.

Автор: avouner

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25224

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] считают: https://www.anthropic.com/research/disempowerment-patterns

[3] восприятия: http://www.braintools.ru/article/7534

[4] Источник: https://habr.com/ru/news/993036/?utm_source=habrahabr&utm_medium=rss&utm_campaign=993036

Нажмите здесь для печати.