Русская рулетка с поиском: почему каждый десятый ответ в AI-выдаче — ложь

ИИ все активнее в повседневных задачах, например стал частью поиска. Google и другие системы генерируют сверху LLM-сводку. Не надо тратить время на выбор ссылок и анализ информации — получаешь всё на блюдечке, даже с понятной версткой.

Но все мы знаем, что ИИ выдает несуществующие факты, путает источники и делает некорректные выводы. Насколько часты эти ошибки ^[1]? И критичны ли?

Рассмотрю, откуда они в поиске, на примере Google — только потому, что под руку попалось исследование его точности ^[2]. Так-то поисковые ИИ-агенты чудят примерно одинаково.

Как устроен AI-поиск Google

Итак, ИИ-режим (Google AI Overviews) выводит вверху страницы сгенерированные сводки топа поиска по заданной теме. По задумке это сокращает усилия пользователя — ИИ систематизирует данные за него. Функция зародилась как Search Generative Experience (SGE) в 2023-м и в течение 2024-го поочередно включилась во всех регионах.

AI Overviews использует Retrieval-Augmented Generation (RAG). Не полагаясь на заранее полученные знания, нейросеть в реальном времени извлекает релевантный веб-контент из собственного поискового индекса Google и передает в LLM, где формируется «человеческий» ответ. Под капотом — модель Gemini. Ее версия обновляется, но в разных регионах с разной скоростью.

К утверждениям добавляются ссылки на страницы, откуда они извлечены. А для сложных запросов предусмотрено ветвление (query branching), когда первоначальный промпт пользователя разбивается на несколько частей и модель генерирует ответ для каждой.

Режим ИИ — отдельный интерфейс для общения с поиском. Идеи те же, что в AI Overviews, но сразу с ветвлением запроса.

И на каждом этапе ИИ-поиск может ошибиться:

Анализ пользовательского ввода — запрос может быть неправильно интерпретирован и/или поделен.
Поиск, чтение и ранжирование источников. Кто хоть раз пользовался поиском, мог заметить, что в топе не всегда самые корректные статьи по теме. Они самые релевантные по мнению поисковика, но это еще ничего не значит. Поищите режущее глаз технаря «кВт/ч» — результатов будет много!
Компиляция ответа из источников и привязка к ним. ИИ не всегда корректно извлекает и склеивает факты: его задача не найти правильный ответ, а сгладить различия, выбрать наиболее часто упоминаемые факты. Вывод вполне может быть неверным, вплоть до противоположного.
Постобработка ответа. Здесь тоже возможны искажения, поскольку задача нейросетки — сгенерировать наиболее правдоподобный ответ, а не найти истину.

Так что здесь сплошь и рядом проблемы интерпретации… Как в известном анекдоте:

Урок в школе. Вовочка обзывает Марь Иванну дурой, на что та вызывает директора. Директор говорит:

— Так, Вовочка! А ну-ка сейчас сейчас же три раза скажи, что Марь Иванна не дура, и извинись!

Вовочка:

— (Холодно-обреченно.) Марь Иванна не дура. (Сомневаясь.) Марь Иванна не дура… (Восклицательно-удивленно.) Марь Иванна не дура??! Ну извини-и-ите…

Ошибки добавляет недетерминированная природа LLM: галлюцинации и компромиссы. Быстрые модели чаще ошибаются, точные (последняя — Gemini 3.1 Pro) — медленнее работают. Пользователь, возможно, хочет качественный ответ, но поисковая система пойдет быстрым путем вместо точного.

Как часто нейросеть дает неверные результаты

Журналисты The New York Times задались этим вопросом. И пришли к выводу, что система ошибается примерно в 1 из 10 случаев ^[3].

Оценивали бенчмарком SimpleQA ^[4]: ИИ задают 4 тысячи вопросов с однозначными проверяемыми ответами, сравнивают с табличными результатами и считают процент ошибок.

Точность Gemini 2.5 бенчмарк оценил в 85%, Gemini 3 — в 91%. С учетом аудитории Google это миллионы неверных ответов в час.

91% верных ответов — много или мало?

Для инфраструктуры банка 9% ошибок самой совершенной модели — перебор. Представьте, что 1 из 10 переводов денег теряется? Такого не происходит, потому что контроль заложен на уровне протоколов.

Для человека 9% ошибок нормальны. В одной швейцарской клинике в 1970-е ошибались в диагностике в 30% случаев, а в 90-е — почти вдвое реже (вот исследование ^[5], где сравнивали прижизненный диагноз и посмертные исследования). Сейчас точность первичного диагноза вряд ли превышает 90% (жаль, более свежих подобных исследований не попадалось).

Но процессы, завязанные на людей, проверяют и перепроверяют. В той же медицине приглашают другого врача или собирают консилиум, делают пациенту дополнительные анализы и, грубо говоря, не режут, пока не исключат по максимуму сомнения.

Для авиапилотов и операторов другого сложного оборудования разрабатывают чек-листы, дублируют функции, вводят коллективные решения. Ошибка допустима, но должна быть обнаружена до точки невозврата.

Проблема в том, что, хотя к ИИ надо относиться как к человеку, который ошибается, люди относятся к нему как к банковской системе, переставая проверять.

Так растет пассивное доверие нейросетям. Как отметили исследующие, Google интерфейсом поощряет людей принимать ответы ИИ, не проверяя ссылки. Ошибка становится незаметнее, а значит, опаснее. И это критично в медицине, финансах, юридических вопросах и образовании.

Критика исследования

Представители Google и других ИИ-компаний сходятся на том, что тестовые вопросы не отражают пользовательский ввод. Пока SimpleQA гуглит столицу какого-нибудь государства, пользователи просят модель сравнить трекинговую обувь разных производителей или найти кофейню с необычными коктейлями, а то и последние статьи о физике плазмы.

Еще результаты теста невоспроизводимы из-за недетерминированности нейросетей. LLM может на один и тот же вопрос сначала ответить корректно, а потом с ошибкой. В итоге два последовательных теста дают противоречивые результаты. Плюс исследователи… тоже использовали ИИ, способный добавить галлюцинаций.

И другой недостаток подхода: вопросы SimpleQA и подобных бенчмарков есть в открытом доступе. А значит, базу ответов можно заложить в проверяемый инструмент в формате шаблона.

Проблема данных из интернета

Можно долго доказывать, что ошибки измеряли корректно, что тесты репрезентативны и 91% — очень неплохо для модели. ИИ-инструменты будут ошибаться не только от несовершенства, но и из-за проблем с источниками данных.

Ни простой поисковик, ни ИИ не создает знания. Система агрегирует и переупаковывает то, что есть в сети. А интернет, как мы знаем, далек от идеального источника истины: противоречив, фрагментирован и местами та еще помойка. .

Раньше интерпретация лежала на пользователе: он должен был проверять грязные данные, учитывая степень доверия источнику, противоречивость фактов, ну и в целом включая критическое мышление ^[6]. Теперь же ответственность ушла ИИ, а пользователи доверяют ему всё больше и перестают проверять. Увы.

Автор: ekatarios

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/29794

URLs in this post:

[1] ошибки: http://www.braintools.ru/article/4192

[2] исследование его точности: https://arstechnica.com/google/2026/04/analysis-finds-google-ai-overviews-is-wrong-10-percent-of-the-time/

[3] система ошибается примерно в 1 из 10 случаев: https://www.google.com/url?q=https://arstechnica.com/google/2026/04/analysis-finds-google-ai-overviews-is-wrong-10-percent-of-the-time/&sa=D&source=docs&ust=1777888176520282&usg=AOvVaw3Rs1Oz47hIng_Yg18D2wYS

[4] бенчмарком SimpleQA: https://openai.com/index/introducing-simpleqa/

[5] исследование: https://pubmed.ncbi.nlm.nih.gov/10885353/

[6] мышление: http://www.braintools.ru/thinking

[7] Источник: https://habr.com/ru/companies/ru_mts/articles/1031062/?utm_campaign=1031062&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.