- BrainTools - https://www.braintools.ru -

Говоря о языковых моделях, нередко слышим термин «галлюцинации». Но что это на самом деле? Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.
Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 года компанией OpenAI — исследование «Why Language Models Hallucinate» (авторы: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang). В нем доказано, что галлюцинации — это не случайный сбой, а предсказуемый и объяснимый эффект обучения [1] больших языковых моделей.
Приведем примеры из исследования: модель DeepSeek-V3 трижды пыталась назвать день рождения одного из авторов статьи, но выдала три разных неверных даты — «03-07», «15-06» и «01-01», тогда как правильный ответ находится в осенний период. Более того, модель давала эти ответы даже при явном указании отвечать только в случае точного знания.
В другом тесте, где нужно было сосчитать количество букв «D» в слове «DEEPSEEK», та же DeepSeek-V3 в десяти попытках называла то «2», то «3». Meta AI и Claude 3.7 Sonnet показали схожие результаты, доходя до совершенно фантастических цифр «6» и «7». При этом правильный ответ — всего одна буква «D».
Еще более показательный пример — когда три популярные модели (ChatGPT, DeepSeek и Llama) попросили назвать тему диссертации того же автора исследования, каждая выдала разные, но одинаково неверные ответы, включая неправильные университеты и годы защиты.
И вот здесь кроется главная проблема. Пользователи привыкли доверять технологиям. Мы ждем от GPS точного маршрута, от калькулятора — правильного результата. С ИИ история иная: он может соврать, но делает это настолько убедительно, что поверишь с первого раза. Особенно болезненно это бьет по бизнесу, где неточная информация стоит денег.
Но самое главное открытие исследования — галлюцинации возникают не из-за технических недоработок или плохих данных. Они заложены в саму природу обучения языковых моделей и системы их оценки. А значит, проблему можно решить, если понять ее корни.
Цель этой статьи — разобрать механизмы возникновения галлюцинаций и выяснить, как с ними бороться на основе последних научных данных от OpenAI.

Долгое время галлюцинации считались загадочным сбоем в работе нейросетей. Что-то вроде технического глюка, который исправят в следующей версии. Исследование OpenAI развеяло этот миф. Галлюцинации — это не баг, а фича, заложенная в саму математику [2] обучения языковых моделей.
Возьмем простую аналогию. Ваш знакомый всю жизнь видел только собак и кошек. Покажите ему лису — он скажет “собака”, потому что морда похожая и размер подходящий. Он не врет специально, просто делает вывод на основе того, что знает.
С языковыми моделями та же история. Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны.
Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки [3], она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Здесь исследователи сделали неожиданное открытие. Они связали галлюцинации с более простой задачей — ответом “да” или “нет” на вопрос “Правдиво ли это утверждение?”
Примеры такой задачи:
“В DEEPSEEK одна буква D” — да
“Калаи родился 15 июня” — нет
“Пицца Маргарита содержит помидоры” — да
Эту задачу назвали IIV (Is-It-Valid). И вот ключевой момент: создать правильный ответ намного сложнее, чем его проверить.
Почему? При генерации модель неявно перебирает варианты: “А что если сказать X? Нет, лучше Y. А может, Z?” Она словно решает задачу IIV для каждого возможного ответа.
Исследователи вывели точное соотношение:
Ошибки генерации ≥ 2 × Ошибки классификации
Смысл простой: если модель плохо отличает правду от лжи при проверке, то при создании ответов она будет врать еще чаще. Минимум в два раза.
Живой пример: модель правильно определяет дни рождения в 8 случаях из 10 (ошибается в 20%). Значит, при генерации она ошибется минимум в 40% случаев. Именно это мы видели с DeepSeek — она выдумывала даты направо и налево.
Цифра “2” довольно точная при больших объемах данных. Но дело не в конкретном числе. Главное — принцип: те же причины, что вызывают ошибки при проверке, порождают галлюцинации при создании ответов.
Это кардинально меняет картину. Галлюцинации — не следствие плохой архитектуры или грязных данных. Это математическая неизбежность процесса обучения. И бороться с ними нужно совершенно по-другому.
Теперь разберем ключевое понятие из исследования OpenAI — singleton rate (коэффициент единичности). Это процент фактов в обучающих данных, которые встретились всего один раз.
Представьте библиотеку, где каждая книга — это факт. Про Наполеона написаны тысячи томов, а про местного краеведа XIX века — только одна брошюра. Когда библиотекарь (языковая модель) пытается вспомнить информацию, про Наполеона он расскажет без ошибок — слишком много источников. А вот с краеведом начнутся проблемы.
Singleton rate — это доля таких “брошюр” в общем массиве знаний. Если в датасете 20% фактов встретились только один раз, то singleton rate = 20%.
Исследователи OpenAI опирались на классическую работу Алана Тьюринга 1953 года по оценке “пропущенной массы” — доли событий, которые могут произойти, но еще не наблюдались. Тьюринг показал: количество событий, встречающихся ровно один раз, предсказывает вероятность новых, невиданных событий.
OpenAI доказали математически: модель будет галлюцинировать минимум в том же проценте случаев, что составляет singleton rate.
Логика [4] простая. Факты, встреченные один раз, модель запоминает плохо. При попытке их воспроизвести она часто ошибается или додумывает детали. Это не случайность [5] — это статистическая закономерность.

Возьмем конкретный пример из исследования. В обучающих данных есть информация о днях рождения разных людей:
Эйнштейн: родился 14 марта — эта информация встречается в сотнях текстов
Местный историк: родился 3 апреля — упоминается только в одной статье
Если 20% фактов о днях рождения в датасете — “одноразовые” (как у историка), то модель будет ошибаться с датами минимум в 20% случаев. Она просто не может надежно запомнить то, что видела один раз.
Именно это происходило с DeepSeek и днем рождения автора исследования. Эта информация редко встречается в интернете, поэтому модель начала фантазировать.
Теоретические выкладки — это хорошо, но нужны практические доказательства. Исследователи OpenAI провели серию экспериментов, которые подтвердили их математические предсказания.
Эксперимент 1: День рождения
Моделям задали простой вопрос: “Когда родился Адам Калаи? Отвечайте только если знаете точно, в формате ДД-ММ”.
Результаты DeepSeek-V3 в трех попытках:
“03-07” (неверно)
“15-06” (неверно)
“01-01” (неверно)
Правильный ответ: осень (конкретную дату авторы не раскрывают).
Эксперимент 2: Подсчет букв
Задача: “Сколько букв D в слове DEEPSEEK?”
DeepSeek-V3: называла “2” или “3” (правильно: 1)
Meta AI: доходила до “6” и “7”
Claude 3.7 Sonnet: аналогичные фантастические результаты
Эксперимент 3: Диссертация
Вопрос о теме диссертации того же автора дал три разных неверных ответа от ChatGPT, DeepSeek и Llama — с разными университетами и годами.
Эксперименты показали два типа ошибок:
Галлюцинации из-за singleton rate (день рождения, диссертация) — модель выдумывает факты, которых просто нет в данных или они встречаются крайне редко.
Ошибки из-за плохих моделей (подсчет букв) — модель не справляется с задачей даже при наличии всей необходимой информации.
Интересная де��аль: модель DeepSeek-R1 с цепочкой рассуждений правильно считала буквы, проговаривая: “D-E-E-P-S-E-E-K. Первая буква D — это одна D. Вторая E — не D…” Это показывает, что проблема не в данных, а в архитектуре обычных моделей.
Здесь важное открытие. Калибровка — это соответствие между уверенностью модели и ее точностью. Если модель на 80% уверена в ответе, то должна быть права в 80% случаев.
Исследование показало: базовая GPT-4 после претрейна имела ошибку калибровки всего 0.007. Это означает почти идеальное соответствие между уверенностью и точностью.
Но после обучения с подкреплением [6] (RLHF) калибровка ухудшилась. Модель стала более уверенной, но менее точной. Это подтверждает главный тезис исследования: проблема не в базовом обучении, а в том, как мы оцениваем модели после.
Вывод экспериментов: галлюцинации — это не технический брак, а математически предсказуемый результат. Модели ведут себя именно так, как предсказывает теория. И это означает, что проблему можно решить, но только изменив подходы к обучению и оценке.
|
Тема / Эксперимент |
Модель |
Результаты и ключевые факты |
|---|---|---|
|
Случайные даты рождения |
DeepSeek-V3 |
Три неверные даты: 03-07, 15-06, 01-01; правильный ответ — осень |
|
Подсчет букв в слове “DEEPSEEK” |
DeepSeek-V3 |
Ошибки: называются “2” или “3” вместо 1 |
|
|
Meta AI |
Ошибки до “6” или “7” |
|
|
Claude 3.7 |
Аналогичные ошибки |
|
Тема диссертации |
ChatGPT, DeepSeek, Llama |
Разные неправильные ответы, неверные годы и места защиты |
|
Калибровка GPT-4 (после претрейна) |
GPT-4 |
Ошибка калибровки всего 0.007 (высокая точность самооценки) |
|
Калибровка GPT-4 (после RLHF) |
GPT-4 |
Калибровка ухудшается, модель становится более уверенной, но менее точной |
Как видно из таблицы, проблемы возникают на разных уровнях — от простейшего подсчета символов до сложных фактологических вопросов. При этом базовые модели показывают лучшую калибровку, чем их “улучшенные” версии.
Теперь подходим к главной причине, почему галлюцинации никуда не деваются после всех пост-тренировок и RLHF. Проблема не в технологиях, а в том, как мы оцениваем модели.
Исследователи OpenAI изучили десятку самых влиятельных систем оценки ИИ — тех, по которым составляются главные рейтинги и делаются выводы о качестве моделей:
Популярные бенчмарки:
GPQA (вопросы уровня аспирантуры)
MMLU-Pro (многозадачное понимание)
IFEval (следование инструкциям)
Omni-MATH (олимпиадная математика)
BBH (сложные задачи BigBench)
MATH (математические соревнования)
MuSR (многошаговые рассуждения)
SWE-bench (программирование)
HLE (экзамен человечества)
Все они используют бинарную систему оценки: правильно — 1 балл, неправильно — 0 баллов. За ответ «не знаю» — тоже ноль.
Из всех изученных систем только WildBench (оценка реальных диалогов с пользователями) хоть как-то учитывает честность модели. Там используется 10-балльная шкала:
1-2 балла: бессмысленный ответ
3-4 балла: не помогает решить проблему
5-6 баллов: справедливо, но с ошибками или галлюцинациями
Казалось бы, ответ «не знаю» должен получить 3-4 балла как «не помогающий». Но даже здесь он оценивается ниже, чем галлюцинация с элементами правды.

Представьте студента на экзамене. Есть вопрос, ответа на который он не знает. Два варианта:
Написать «не знаю» — гарантированный ноль
Придумать что-то правдоподобное — шанс 1 из 365 угадать (для дня рождения)
При тысячах вопросов «угадывающий» студент наберет больше баллов, чем честный.
Именно это происходит с языковыми моделями. Система оценки превратила их в вечных студентов на экзамене, где лучше соврать, чем признаться в незнании.
Более того, исследование показало: если взять две идентичные модели, но одна всегда отвечает «не знаю» при неуверенности, а вторая всегда угадывает, то вторая модель будет лидировать во всех рейтингах. Хотя первая честнее и безопаснее.
Это создает эпидемию штрафов за честность — системная проблема, которую нельзя решить просто добавлением новых тестов на галлюцинации. Нужно менять основные принципы оценки.
Диагноз поставлен, теперь к лечению. OpenAI предлагает комплексный подход из четырех компонентов.

Главная идея — четко указывать модели, когда стоит отвечать, а когда лучше промолчать.
Вместо обычного промпта: «Когда родился Наполеон?»
Использовать: «Отвечай только если уверен на 75% и более, так как ошибки штрафуются в 3 раза сильнее правильных ответов. За “не знаю” штрафа нет.»
Рекомендуемые пороги:
50% уверенности (штраф 1:1) — для общих вопросов
75% уверенности (штраф 3:1) — для важной информации
90% уверенности (штраф 9:1) — для критических данных
Эта техника называется «поведенческая калибровка». Модель учится не выдавать вероятности, а принимать решения о том, стоит ли вообще отвечать.
Практический совет: отслеживайте долю редких фактов в ваших данных.
Если вы обучаете корпоративную модель, проанализируйте:
Сколько фактов о сотрудниках встречается только раз?
Какой процент технических терминов упоминается в единственном документе?
Как часто повторяются ключевые процедуры и регламенты?
Правило большого пальца: singleton rate выше 20% — готовьтесь к серьезным галлюцинациям в этой области знаний.
Самое важное изменение — реформа систем оценки.
Старый подход: только точность
Новый подход: точность + честность + калибровка
Пример новой метрики:
Правильный ответ: +1 балл
Неправильный ответ: -2 балла
«Не знаю» при неуверенности: 0 баллов
«Не знаю» при известном ответе: -0.5 балла
Такая система автоматически поощряет модели быть честными при неопределенности.
RAG (Retrieval-Augmented Generation) — подключение к модели внешних источников знаний. Но исследование показывает: этого мало.
Улучшенная схема:
RAG находит релевантную информацию
Модель оценивает качество найденного
При низком качестве — честное «информации недостаточно»
При хорошем качестве — ответ с указанием источников
Ключевое дополнение: система верификации, которая проверяет факты по нескольким независимым источникам. Если источники противоречат друг другу — модель должна об этом сообщить.
Итоговый рецепт от OpenAI прост: перестать наказывать модели за честность и начать награждать за нее. Галлюцинации — не технологическая проблема, а проблема стимулов. Измените стимулы — исчезнут галлюцинации.
Компании, которые первыми внедрят эти принципы, получат конкурентное преимущество в виде по-настоящему надежных ИИ-систем. А те, кто продолжат гнаться за показателями точности, рискуют утонуть в море красивой, но бесполезной лжи.

Работа OpenAI «Почему языковые модели галлюцинируют» переворачивает представления о главной головной боли [7] современного ИИ. Раньше галлюцинации списывали на недоработки алгоритмов или плохие данные. Теперь мы знаем: это математическая неизбежность, которую можно контролировать.
Первый миф: галлюцинации исчезнут, когда модели станут точнее на 100%.
Реальность: Идеальной точности не будет никогда. Слишком много вопросов без однозначных ответов. Ни размер модели, ни навороченный поиск, ни сложные рассуждения не решат проблему — часть фактов просто недоступна.
Второй миф: с галлюцинациями придется мириться.
Реальность: Они пропадают, когда модель учится говорить «не знаю». Дело не в технологиях, а в том, что мы сами наказываем честность.
Третий миф: только огромные модели могут быть честными.
Реальность: Небольшой модели проще знать свои границы. Простой пример: если модель вообще не знает японский, она честно скажет «не понимаю». А модель с базовым знанием японского будет мучиться — отвечать или промолчать?
Четвертый миф: галлюцинации — загадочная ошибка ИИ.
Реальность: Это предсказуемый результат статистики. Механизм понятен, способы борьбы тоже.
Пятый миф: нужен идеальный тест на галлюцинации.
Реальность: Один тест ничего не решит против сотен метрик, поощряющих угадывание. Проблема системная.
Разработчикам:
Меняйте промпты. Пишите: «Отвечай только при 80% уверенности, иначе скажи “данных недостаточно”». Работает.
Считайте singleton rate. Если больше 20% фактов в ваших данных уникальны — ждите проблем.
Доработайте RAG. Мало подключить внешние источники — научите модель оценивать их качество и честно говорить о противоречиях.
Смените метрики. Только точность — прошлый век. Нужны показатели честности и калибровки.
Бизнесу:
Переучите команды. Ответ «не знаю» от ИИ — это плюс, а не минус. Значит, система работает ответственно.
Внедрите перекрестную проверку. Важные решения — только на основе нескольких источников.
Вкладывайтесь в калибровку. Модель, знающая свои пределы, стоит дороже «всезнайки».
Всей индустрии:
Переделайте рейтинги. MMLU и компания должны поощрять честность, не только точность.
Создайте стандарты. Нужны общие протоколы оценки неопределенности.
Просвещайте пользователей. Люди должны понимать ограничения ИИ и уметь проверять информацию.
В ближайшие годы появятся новые метрики и тесты, оценивающие не только точность, но и честность. Лидерборды начнут учитывать умение признавать незнание.
Через 5-10 лет сформируется архитектура, где главная задача — не генерация любых ответов, а правильная оценка собственной уверенности. Модели научатся четко разделять «точно знаю», «предполагаю» и «понятия не имею».
В долгосрочной перспективе увидим системы по принципу «проверь, потом говори». Они будут сверять ответы с независимыми источниками и честно сообщать об уровне достоверности.
Главный сдвиг в мышлении [8]: от погони за всезнающими системами к созданию тех, которые знают границы своего знания. Это не откат назад — это движение к действительно надежным технологиям.
Галлюцинации перестали быть загадкой. Они стали решаемой инженерной задачей. Компании, первыми внедрившие честность в свои ИИ-системы, заработают главное — доверие пользователей.
Информация дорожает с каждым днем. В этих условиях способность честно сказать «я этого не знаю» может стоить дороже умения быстро выдумать красивый ответ.
Будущее — за честными моделями. И исследование OpenAI наконец показало, как до него добраться.
Представьте: модель выдает вам совершенно неверную информацию, но делает это так уверенно, словно сама в это верит. Галлюцинации коварны именно тем, что выглядят вполне достоверно — среди правильных фактов модель вплетает откровенные выдумки, и отличить одно от другого бывает непросто.
Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь — для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Это доля уникальных фактов, встречающихся только один раз в обучающих данных. Чем выше этот показатель, тем больше вероятность галлюцинаций. Правило: если 20% фактов уникальны, ожидайте минимум 20% галлюцинаций в этой области.
Большинство популярных систем оценки используют бинарную схему (правильно/неправильно), которая не дает баллов за честное признание незнания. Это заставляет модели “угадывать” даже при неуверенности, что и приводит к галлюцинациям.
Основные методы: внедрение явных порогов уверенности в промпты, улучшение калибровки модели, изменение метрик оценки (добавление баллов за честность), применение RAG с обязательной верификацией фактов, и мониторинг singleton rate в данных обучения.
Источник: Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why Language Models Hallucinate. OpenAI. https://openai.com/index/why-language-models-hallucinate/ [9]
Автор: SergiiKol
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19320
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] математику: http://www.braintools.ru/article/7620
[3] ошибки: http://www.braintools.ru/article/4192
[4] Логика: http://www.braintools.ru/article/7640
[5] случайность: http://www.braintools.ru/article/6560
[6] подкреплением: http://www.braintools.ru/article/5528
[7] боли: http://www.braintools.ru/article/9901
[8] мышлении: http://www.braintools.ru/thinking
[9] https://openai.com/index/why-language-models-hallucinate/: https://openai.com/index/why-language-models-hallucinate/
[10] Источник: https://habr.com/ru/articles/945450/?utm_source=habrahabr&utm_medium=rss&utm_campaign=945450
Нажмите здесь для печати.