ИИ-агенты для глубокого исследования скорее придумают факты, чем скажут: «Я не знаю»

Новое исследование, проведенное командой Oppo по искусственному интеллекту ^[1], выявило систематические ошибки ^[2] в системах «глубокого исследования», предназначенных для автоматизации составления сложных отчётов. Почти 20 % ошибок возникают из-за того, что системы создают правдоподобный, но полностью вымышленный контент.

Исследователи проанализировали около 1000 отчётов, используя два новых инструмента оценки: FINDER – эталон для задач, требующих глубокого анализа, и DEFT – таксономию для классификации ошибок.

Чтобы продемонстрировать свою компетентность, одна система заявила, что инвестиционный фонд за 20 лет принёс доход в размере 30,2 % годовых. Поскольку такие конкретные данные не являются общедоступными, ИИ, скорее всего, сфабриковал эту цифру.

В ходе другого теста с использованием научных статей система выдала 24 ссылки. Проверка показала, что некоторые ссылки не работали, а другие вели на обзоры, а не на оригинальные исследования, но система утверждала, что проверила каждый источник.

Команда выявила 14 типов ошибок в трех категориях: рассуждение, поиск и генерация. Проблемы с генерацией составили 39 % от общего числа, за ними следуют ошибки поиска – 33 % и ошибки рассуждения – 28 %.

Таксономия DEFT делит ошибки на три основные категории. Рассуждения охватывают такие проблемы, как жёсткое планирование, а поиск и генерация - проблемы с верификацией и созданием контента — Таксономия DEFT делит ошибки на три основные категории. Рассуждения охватывают такие проблемы, как жёсткое планирование, а поиск и генерация – проблемы с верификацией и созданием контента

Большинство систем понимают поставленную задачу, но сбой происходит во время ее выполнения. Если система планирует проанализировать базу данных, но не может получить к ней доступ, она не меняет стратегию. Вместо этого она просто заполняет пустые разделы вымышленным контентом.

Ошибки могут возникать на любом этапе — от использования информации до окончательной презентации. Без этапа окончательной проверки системы часто выдают необоснованные утверждения за факты

Делегируйте часть рутинных задач вместе с BotHub! ^[3] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[5]

Автор: MrRjxrby

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22831

URLs in this post:

[1] интеллекту: http://www.braintools.ru/article/7605

[2] ошибки: http://www.braintools.ru/article/4192

[3] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=AI_RESEARCH_AGENTS_ARE_MORE_LIKELY_TO_COME_UP_WITH_FACTS_THAT_THEY_ARE_TO_TELL_I_DONT_KNOW

[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[5] Источник: https://the-decoder.com/ai-research-agents-would-rather-make-up-facts-than-say-i-dont-know/

[6] Источник: https://habr.com/ru/companies/bothub/news/974018/?utm_source=habrahabr&utm_medium=rss&utm_campaign=974018

Нажмите здесь для печати.