
Один из самых популярных способов снизить процент галлюцинаций языковых моделей — метод RAG, то есть схема, в которой модель при необходимости обращается к внешним данным, а не опирается исключительно на внутренние знания. Все LLM текущего поколения работают с RAG, но он делает систему затратнее по вычислениям и сам по себе может допускать ошибки, если внешний контекст оказался плохим или нерелевантным.
Сегодня я разберу исследование LLM-Independent Adaptive RAG: Let the Question Speak for Itself, в котором ученые из MWS AI, AIRI, Сколтеха и еще нескольких университетов предлагают решение этой проблемы через новый подход к adaptive retrieval, когда RAG запускается не автоматом, а только при необходимости.
В чем новизна метода
Вы будете правы, если воскликнете – «концепция не принципиально новая!». Но не спешите с выводами: практически все существующие adaptive RAG-подходы принимают решение “искать/не искать” через саму LLM: по её внутренним состояниям, по выходным сигналам или согласно оценке неопределённости. А это снова даёт заметные вычислительные затраты и во многом съедает тот выигрыш в эффективности, ради которого adaptive retrieval вообще и задумывался.
Авторы исследования предлагают отказаться от дорогой проверки необходимости RAG через LLM. и заменить её более лёгким способом: определять, нужен ли retrieval, по внешним признакам самого вопроса и связанных с ним сущностей. Свой подход они назвали LLM-independent adaptive retrieval.
Иными словами, ученые предлагают смотреть не внутрь модели, а на сам вопрос. Для этого собираются внешние признаки, связанные с вопросом и сущностями в нём.
К примеру:
-
степень популярности по просмотрам в Wikipedia;
-
хорошо ли сама модель в принципе знает такие сущности;
-
какого типа вопрос и насколько он сложный.
Дальше схема работает так:
Сначала система получает вопрос → из этого вопроса извлекаются нужные внешние признаки → после этого лёгкий классификатор (не LLM) решает, нужен retrieval или нет.
Если нужен, система идёт во внешний поиск и уже потом отдаёт найденный контекст генеративной модели. Если не нужен, модель отвечает сразу, без лишнего шага.
И в этом главная фича: решение о поиске выносится из дорогого слоя большой модели в более дешёвый слой признаков и классификатора.
Даже признак knowledgability, который связан со знанием сущностей моделью, просчитывается заранее: метод LLM-independent adaptive retrieval предвычисляет такие оценки и потом используют их без нового запроса к LLM на каждом вопросе.
Собственно этот подход позволяет тратить на решение о поиске менее 1% вычислительных ресурсов (FLOPs) от общей стоимости генерации ответа, что значительно дешевле классических подходов RAG.
Техподробности
Под капотом – выстроенный лёгкий слой признаков (всего авторы рассматривают 27 признаков, объединенных в 7 групп), который работает до генерации ответа. Слой получает вопрос, извлекает из него набор внешних сигналов и уже на их основе обученный классификатор решает, нужен retrieval или нет.
Перечислю все 7 групп:
-
Graph features: признаки по графу знаний Wikidata. Для сущностей из вопроса считается, сколько у них связей как у subject и как у object; дальше берутся минимум, максимум и среднее.
-
Popularity features: насколько сущности из вопроса популярны по просмотрам страниц в Wikipedia за последний год; снова используются min, max и mean.
-
Frequency features: как часто сущности встречаются в большом текстовом корпусе, плюс частота самого редкого n-грамма в вопросе.
-
Knowledgability: оценка того, насколько LLM «знает» сущность; этот сигнал получают заранее, офлайн, через verbalized uncertainty модели по отношению к сущности.
-
Question type: вероятности того, что вопрос относится к одному из девяти типов — ordinal, count, generic, superlative, difference, intersection, multihop, yes/no, comparative.
-
Question complexity: одношаговый вопрос или multi-hop, то есть требует ли он дополнительных шагов рассуждения.
-
Context relevance: насколько найденный контекст вообще релевантен вопросу.
Дальше важен способ, как именно эти группы считаются. Для entity linking и извлечения сущностей используются готовые NLP-инструменты вроде BELA и DeepPavlov.
Question type они получают через классификатор на базе bert-base-uncased, обученный на Mintaka; на выходе модель даёт девять вероятностей по типам вопросов, а на валидации у этого классификатора указана точность 0.93.
Question complexity строится как one-hop vs multi-hop классификация на основе признака N-hop из FreshQA; для этого использован DistilBERT, а итоговый F1 на тесте — 0.82. Context relevance считается через BERT cross-encoder: вопрос и каждый контекстный фрагмент прогоняются через модель, после чего по всем контекстам агрегируются minimum, maximum и mean вероятности релевантности, плюс отдельно учитывается длина контекста.
Сам роутер у них не нейросетевой гигант, а обычный ML-классификатор поверх этих признаков. Каждая группа признаков может использоваться для обучения классификатора, который предсказывает, нужен retrieval или нет.
В приложении авторы перебирают несколько стандартных моделей и в финале используют soft-voting ансамбль из двух лучших на валидации. Кроме отдельных групп признаков они ещё проверяют гибриды: HybridExternal – все внешние признаки, HybridUFP – все внешние без popularity и frequency, и HybridFP – uncertainty плюс внешние признаки без popularity и frequency.
Основа идёт в связке LLaMA 3.1-8B-Instruct как генератора и BM25 как retriever. Отдельно проверяется переносимость результатов на Qwen2.5-7B-Instruct. Тестирование идёт на шести QA-датасетах: SQuAD v1.1, Natural Questions, TriviaQA, MuSiQue, HotpotQA и 2WikiMultiHopQA.
Для оценки качества используется In-Accuracy (InAcc) — метрика, которая проверяет, содержится ли в ответе правильный ответ. Для оценки эффективности — Retrieval Calls (RC) – среднее число вызовов retrieval на вопрос, и LM Calls (LMC) – среднее число вызовов языковой модели на вопрос, включая шаги uncertainty estimation.
Результаты
Метод не обязательно показывает лучшую абсолютную точность, зато даёт очень хорошее соотношение качества и вычислительной цены. Лучшими внешними признаками оказались knowledgability и question complexity со средним InAcc 38.9 и 38.8 соответственно. Для сравнения, Always RAG даёт 38.4, а лучший one-step uncertainty baseline Hybrid UE – 39.3. То есть разрыв с сильными uncertainty-based подходами небольшой.
По средней точности ответов есть и более высокие средние результаты, например, AdaptiveRAG – 40.3 и DRAGIN – 41.1. Вывод: внешние признаки подходят вплотную к сильным adaptive-методам, при этом обходятся заметно дешевле по числу вызовов модели.
У внешних методов LMC обычно равен 1.0, то есть в среднем на вопрос приходится один вызов LLM. У uncertainty-based методов этот показатель выше: например, у Hybrid UE – 1.7–2.0, у AdaptiveRAG – до 5.2 в зависимости от датасета, у DRAGIN – до 6.3, у SeaKR – до 14.6, а у RowenCM – 42.1. Внешние признаки предвычисляются, поэтому не добавляют LLM накладных расходов во время инференса.
Но могут ли внешние признаки дополнить uncertainty-based подходы?
Согласно выводам исследования, в большинстве датасетов внешние признаки скорее заменяют uncertainty-сигналы, чем усиливают их. Заметный выигрыш от комбинации виден в основном на MuSiQue; на остальных наборах явных преимуществ от смешивания двух подходов не получилось.
Заключение
Собственно, разобранная исследовательская работа фокусируется на поиске более выгодного подхода к принятию решений о необходимости использования retrieval. Концепция легковесного ML для маршрутизации запросов – один из путей к снижению затрат на инференс, к чему стремится весь бизнес и за что бьются все разработчики ИИ. Так, метод LLM-Independent Adaptive Retrieval имеет хорошие шансы прижиться. .
https://aclanthology.org/2025.emnlp-main.439/ – ссылка на работу.
Maria Marina, Nikolay Ivanov, Sergey Pletenev, Mikhail Salnikov, Daria Galimzianova, Nikita Krayko, Vasily Konovalov, Alexander Panchenko, and Viktor Moskvoretskii. 2025. LLM-Independent Adaptive RAG: Let the Question Speak for Itself. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 8697–8709, Suzhou, China. Association for Computational Linguistics.
Автор: SecretEditor


