ИИ-агенты для глубокого исследования скорее придумают факты, чем скажут: «Я не знаю». ai.. ai. oppo.. ai. oppo. агенты.. ai. oppo. агенты. Блог компании BotHub.. ai. oppo. агенты. Блог компании BotHub. Будущее здесь.. ai. oppo. агенты. Блог компании BotHub. Будущее здесь. ИИ.. ai. oppo. агенты. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. oppo. агенты. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное.. ai. oppo. агенты. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть.. ai. oppo. агенты. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть. придумают.

ИИ-агенты для глубокого исследования скорее придумают факты, чем скажут: «Я не знаю» - 1

Новое исследование, проведенное командой Oppo по искусственному интеллекту, выявило систематические ошибки в системах «глубокого исследования», предназначенных для автоматизации составления сложных отчётов. Почти 20 % ошибок возникают из-за того, что системы создают правдоподобный, но полностью вымышленный контент.

Исследователи проанализировали около 1000 отчётов, используя два новых инструмента оценки: FINDER – эталон для задач, требующих глубокого анализа, и DEFT – таксономию для классификации ошибок.

Чтобы продемонстрировать свою компетентность, одна система заявила, что инвестиционный фонд за 20 лет принёс доход в размере 30,2 % годовых. Поскольку такие конкретные данные не являются общедоступными, ИИ, скорее всего, сфабриковал эту цифру.

В ходе другого теста с использованием научных статей система выдала 24 ссылки. Проверка показала, что некоторые ссылки не работали, а другие вели на обзоры, а не на оригинальные исследования, но система утверждала, что проверила каждый источник.

Команда выявила 14 типов ошибок в трех категориях: рассуждение, поиск и генерация. Проблемы с генерацией составили 39 % от общего числа, за ними следуют ошибки поиска – 33 % и ошибки рассуждения – 28 %.

Таксономия DEFT делит ошибки на три основные категории. Рассуждения охватывают такие проблемы, как жёсткое планирование, а поиск и генерация - проблемы с верификацией и созданием контента — Таксономия DEFT делит ошибки на три основные категории. Рассуждения охватывают такие проблемы, как жёсткое планирование, а поиск и генерация – проблемы с верификацией и созданием контента

Большинство систем понимают поставленную задачу, но сбой происходит во время ее выполнения. Если система планирует проанализировать базу данных, но не может получить к ней доступ, она не меняет стратегию. Вместо этого она просто заполняет пустые разделы вымышленным контентом.

Ошибки могут возникать на любом этапе — от использования информации до окончательной презентации. Без этапа окончательной проверки системы часто выдают необоснованные утверждения за факты

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Запись добавлена: 06.12.2025 в 15:17
Оставлено в

ИИ-агенты для глубокого исследования скорее придумают факты, чем скажут: «Я не знаю»

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов