- BrainTools - https://www.braintools.ru -
Согласно новому исследованию, многие языковые модели с большей вероятностью генерируют неверную информацию, когда пользователи запрашивают краткие ответы.

Исследователи из Giskard [1] оценили ведущие языковые модели с помощью многоязычного эталонного теста Phare [2], уделяя особое внимание [3] тому, как часто они «галлюцинируют». Первый выпуск эталонного теста посвящён галлюцинациям — проблеме, которая, как показали более ранние исследования [4], является причиной более трети всех задокументированных инцидентов с участием больших языковых моделей.
Полученные результаты указывают на чёткую закономерность: многие модели с большей вероятностью выдают галлюцинации, когда пользователи запрашивают короткие ответы или формулируют свои запросы слишком уверенным тоном.
Задания, в которых прямо указывается на необходимость краткого ответа, например «Ответьте кратко», могут снизить достоверность фактов во многих моделях. В некоторых случаях устойчивость к галлюцинациям снижалась на целых 20 процентов.
Согласно тестированию Phare [2], это снижение в значительной степени связано с тем, что для точных опровержений часто требуются более длинные и подробные объяснения. Когда моделям приходится сокращать ответы, часто для уменьшения количества используемых токенов или сокращения времени ожидания, они с большей вероятностью будут экономить на фактической точности.
Некоторые модели пострадали больше, чем другие. У Grok 2, Deepseek V3 и GPT-4o mini наблюдалось значительное снижение производительности при ограничении объёма. Другие модели, такие как Claude 3.7 Sonnet, Claude 3.5 Sonnet и Gemini 1.5 Pro, оставались в основном стабильными, даже когда их просили отвечать кратко.
Тон запроса пользователя также играет роль. Фразы вроде «Я на 100% уверен, что…» или «Мой учитель сказал мне, что…» снижают вероятность того, что некоторые модели исправят ложные утверждения. Этот так называемый эффект подхалимства [5] может снизить способность модели оспаривать неверные утверждения на 15 процентов.
«Модели, оптимизированные в первую очередь для повышения удовлетворённости пользователей, постоянно предоставляют информацию, которая звучит правдоподобно и авторитетно, несмотря на сомнительные или отсутствующие фактические основания», — говорится в исследовании [6].
Более мелкие модели, такие как GPT-4o mini, Qwen 2.5 Max и Gemma 3 27B, особенно чувствительны к такого рода формулировкам пользователей. Более крупные модели от Anthropic и Meta*, в том числе Claude 3.5, Claude 3.7 и Llama 4 Maverick, гораздо менее чувствительны к преувеличенной уверенности пользователей.
Исследование также показывает, что языковые модели, скорее всего, работают хуже в реальных условиях, таких как манипулятивные формулировки или ограничения на системном уровне, чем в идеализированных тестовых условиях. Это становится особенно проблематичным, когда приложения ставят краткость и удобство использования выше фактической достоверности.
Phare — это совместный проект Giskard [1], Google DeepMind [7], Европейского союза [8] и Bpifrance [9]. Его цель — создать комплексный эталон для оценки безопасности и надёжности больших языковых моделей. В будущих модулях будут изучаться предвзятость, вредоносность и уязвимость к неправомерному использованию.
Полные результаты доступны на phare.giskard.ai [10], где организации могут принять участие в дальнейшей разработке. Протестировать работу моделей искусственного интеллекта [11] можно на платформе BotHub [12], доступ к ней не требует использования VPN, а по ссылке [13] можно получить 100 000 бесплатных токенов для первых задач и начать работать уже сейчас.
Источник [14]
Автор: mefdayy
Источник [15]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15126
URLs in this post:
[1] Giskard: https://giskard.ai/
[2] эталонного теста Phare: https://phare.giskard.ai/
[3] внимание: http://www.braintools.ru/article/7595
[4] более ранние исследования: https://arxiv.org/abs/2504.10277
[5] так называемый эффект подхалимства: https://the-decoder.com/what-openai-wants-to-learn-from-its-failed-chatgpt-update/
[6] — говорится в исследовании: https://www.giskard.ai/knowledge/good-answers-are-not-necessarily-factual-answers-an-analysis-of-hallucination-in-leading-llms
[7] Google DeepMind: https://deepmind.google/
[8] Европейского союза: https://european-union.europa.eu/index_en
[9] Bpifrance: https://www.bpifrance.fr/
[10] phare.giskard.ai: http://phare.giskard.ai
[11] интеллекта: http://www.braintools.ru/article/7605
[12] BotHub: https://bothub.chat/
[13] ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[14] Источник: https://the-decoder.com/confident-user-prompts-make-llms-more-likely-to-hallucinate/
[15] Источник: https://habr.com/ru/companies/bothub/news/908880/?utm_source=habrahabr&utm_medium=rss&utm_campaign=908880
Нажмите здесь для печати.