Как краткие запросы и уверенный тон влияют на достоверность ответов LLM

Согласно новому исследованию, многие языковые модели с большей вероятностью генерируют неверную информацию, когда пользователи запрашивают краткие ответы.

Уверенные подсказки пользователя повышают вероятность галлюцинаций у LLM

Исследователи из Giskard ^[1] оценили ведущие языковые модели с помощью многоязычного эталонного теста Phare ^[2], уделяя особое внимание ^[3] тому, как часто они «галлюцинируют». Первый выпуск эталонного теста посвящён галлюцинациям — проблеме, которая, как показали более ранние исследования ^[4], является причиной более трети всех задокументированных инцидентов с участием больших языковых моделей.

Полученные результаты указывают на чёткую закономерность: многие модели с большей вероятностью выдают галлюцинации, когда пользователи запрашивают короткие ответы или формулируют свои запросы слишком уверенным тоном.

Задания, в которых прямо указывается на необходимость краткого ответа, например «Ответьте кратко», могут снизить достоверность фактов во многих моделях. В некоторых случаях устойчивость к галлюцинациям снижалась на целых 20 процентов.

Согласно тестированию Phare ^[2], это снижение в значительной степени связано с тем, что для точных опровержений часто требуются более длинные и подробные объяснения. Когда моделям приходится сокращать ответы, часто для уменьшения количества используемых токенов или сокращения времени ожидания, они с большей вероятностью будут экономить на фактической точности.

Некоторые модели пострадали больше, чем другие. У Grok 2, Deepseek V3 и GPT-4o mini наблюдалось значительное снижение производительности при ограничении объёма. Другие модели, такие как Claude 3.7 Sonnet, Claude 3.5 Sonnet и Gemini 1.5 Pro, оставались в основном стабильными, даже когда их просили отвечать кратко.

Тон запроса пользователя также играет роль. Фразы вроде «Я на 100% уверен, что…» или «Мой учитель сказал мне, что…» снижают вероятность того, что некоторые модели исправят ложные утверждения. Этот так называемый эффект подхалимства ^[5] может снизить способность модели оспаривать неверные утверждения на 15 процентов.

«Модели, оптимизированные в первую очередь для повышения удовлетворённости пользователей, постоянно предоставляют информацию, которая звучит правдоподобно и авторитетно, несмотря на сомнительные или отсутствующие фактические основания», — говорится в исследовании ^[6].

Более мелкие модели, такие как GPT-4o mini, Qwen 2.5 Max и Gemma 3 27B, особенно чувствительны к такого рода формулировкам пользователей. Более крупные модели от Anthropic и Meta*, в том числе Claude 3.5, Claude 3.7 и Llama 4 Maverick, гораздо менее чувствительны к преувеличенной уверенности пользователей.

Тепловые карты: сравнение языковых моделей по точности опровержения (тон голоса пользователя) и устойчивости к галлюцинациям (системные подсказки). — Результаты теста Phare показывают значительные различия в том, насколько хорошо языковые модели противостоят галлюцинациям и опровергают ложные утверждения. Производительность варьируется в зависимости от архитектуры модели, тональности пользователя и стиля подсказок.

Исследование также показывает, что языковые модели, скорее всего, работают хуже в реальных условиях, таких как манипулятивные формулировки или ограничения на системном уровне, чем в идеализированных тестовых условиях. Это становится особенно проблематичным, когда приложения ставят краткость и удобство использования выше фактической достоверности.

Рейтинг (апрель 2025 г.): языковые модели по устойчивости к галлюцинациям, модели Claude и Gemini 1.5 Pro лидируют. — Рейтинги устойчивости к галлюцинациям за апрель 2025 года свидетельствуют о стабильной работе моделей Gemini и Claude под давлением.

Phare — это совместный проект Giskard ^[1], Google DeepMind ^[7], Европейского союза ^[8] и Bpifrance ^[9]. Его цель — создать комплексный эталон для оценки безопасности и надёжности больших языковых моделей. В будущих модулях будут изучаться предвзятость, вредоносность и уязвимость к неправомерному использованию.

Полные результаты доступны на phare.giskard.ai ^[10], где организации могут принять участие в дальнейшей разработке. Протестировать работу моделей искусственного интеллекта ^[11] можно на платформе BotHub ^[12], доступ к ней не требует использования VPN, а по ссылке ^[13] можно получить 100 000 бесплатных токенов для первых задач и начать работать уже сейчас.

Источник ^[14]

Автор: mefdayy

Источник ^[15]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15126

URLs in this post:

[1] Giskard: https://giskard.ai/

[2] эталонного теста Phare: https://phare.giskard.ai/

[3] внимание: http://www.braintools.ru/article/7595

[4] более ранние исследования: https://arxiv.org/abs/2504.10277

[5] так называемый эффект подхалимства: https://the-decoder.com/what-openai-wants-to-learn-from-its-failed-chatgpt-update/

[6] — говорится в исследовании: https://www.giskard.ai/knowledge/good-answers-are-not-necessarily-factual-answers-an-analysis-of-hallucination-in-leading-llms

[7] Google DeepMind: https://deepmind.google/

[8] Европейского союза: https://european-union.europa.eu/index_en

[9] Bpifrance: https://www.bpifrance.fr/

[10] phare.giskard.ai: http://phare.giskard.ai

[11] интеллекта: http://www.braintools.ru/article/7605

[12] BotHub: https://bothub.chat/

[13] ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[14] Источник: https://the-decoder.com/confident-user-prompts-make-llms-more-likely-to-hallucinate/

[15] Источник: https://habr.com/ru/companies/bothub/news/908880/?utm_source=habrahabr&utm_medium=rss&utm_campaign=908880

Нажмите здесь для печати.