- BrainTools - https://www.braintools.ru -

Тайная слабость нейросетей: почему большие контекстные окна не работают

Меня зовут Михаил Сальников, я независимый исследователь в области искусственного интеллекта [1], автор бенчмарка AI Independence Bench [2] и эксперимента с автономным ИИ, известным как Aria [3]. Я почти каждый день читаю статьи в arxiv.org на эту тему и временами натыкаюсь на очень интересные результаты от других исследователей. Решил, что стоит начать делиться с хабровчанами самыми примечательными из них (а если бы я продолжил писать только про свои работы, статьи выходили бы раз в пару месяцев 🙂)

Контекстная гниль: концы контекста выглядят отлично, а середина «гниёт»

Контекстная гниль: концы контекста выглядят отлично, а середина «гниёт»

Сегодня хочу рассказать вам о результатах недавнего исследования Context Rot Evaluation (CRE) [4], которое показало, что большие контекстные окна работают не так, как мы думаем. Крупнейшие ИИ-вендоры ведут агрессивную гонку контекстных окон: 128K токенов стали минимально необходимым стандартом, а некоторые модели заявляют и о поддержке миллионов. Многие из нас привыкли верить, что «Effective Context Window» — это монолитное пространство, где модель одинаково хорошо видит каждое слово. Однако свежее исследование доказывает обратное: внутри огромных файлов скрывается «слепая зона». Модели могут блестяще рассуждать о начале или о конце документа, но их логика [5] буквально рассыпается, если суть задачи находится в середине.

И речь идёт не о привычной проблеме поиска фактов (retrieval), которую мы знали по тестам «Иголка в стоге сена» и работе «Lost in the Middle» (Liu et al., 2023), а о фундаментальном коллапсе рассуждений (reasoning). Этот «провал середины» для поиска фактов известен ещё с 2023 года — но на логике его системно показали впервые. Почему ИИ страдает избирательной амнезией и как учёные вывели современные модели на чистую воду? Разберём четыре главных инсайта, которые нам даёт это исследование.

Методология CRE: как учёные обнаружили «контекстную гниль»

Но сначала немного о методике. Авторы исследования разработали бенчмарк Context Rot Evaluation (CRE), который позволяет глубоко проанализировать способности ИИ к логике в больших контекстах. В отличие от старых бенчмарков типа NIAH, которые проверяли лишь способность найти слово «лимон» 🍋 среди текста о котах 🐱, CRE фокусируется на умении решать задачи GSM8K (математика [6]) и ARC-Challenge (научные тесты) внутри «шума».

Всего протестировали 9 моделей в два раунда. Начальный сет — пять моделей: Qwen 2.5-7B-Instruct, MiMo-v2-Flash, GLM-4.7-FlashX, DeepSeek-V3.2 (в reasoning-режиме) и Kimi k2.5. Второй раунд — четыре новейших релиза от тех же вендоров: DeepSeek-V4-Pro, MiMo-V2.5-Pro, Kimi-K2.6 и GLM-5.1. Эксперимент строился на трёх переменных:

  • Позиция задачи: сравнение точности, когда задача стоит в конце (зона комфорта) и ровно в середине.

  • Тип «филлера» (шума): текст вокруг варьировался по степени «перекрытия» с задачей.

    1. with_solutions — обучающие примеры с решениями (высокое сходство);

    2. questions_only_v2 — только вопросы без ответов (среднее);

    3. neutral_text — нейтральный текст из Wikipedia и новостей (низкое).

  • Длина контекста: испытания на уровнях 8K, 32K и 64K токенов.

Инсайт №1: коллапс логики в середине контекста

Результаты показали, что «позиционная уязвимость» — это факт, а не случайность [7]. Как только задача перемещается в середину, точность некоторых моделей падает до уровня угадывания. Причём этот коллапс наблюдается не только на длинных контекстах, но даже на коротких.

Ниже — точность (Accuracy) на контексте 64K при заполнении примерами с решениями (with_solutions):

Модель

Конец (End)

Середина (Mid)

Падение (Drop)

Qwen 2.5-7B

94%

0%

−94 pp

MiMo-v2-Flash

96%

8%

−88 pp

GLM-4.7-FlashX

90%

56%

−34 pp

Kimi k2.5

98%

92%

−6 pp

DeepSeek-V3.2 (reasoning)

98%

98%

0 pp

Ключевое наблюдение: у уязвимых моделей падение усиливается с ростом контекста. Например, MiMo-v2-Flash теряет всего −12 pp на 8K, −24 pp на 32K — и обрушивается на −88 pp на 64K (точность в середине = всего 8%). При этом «иммунные» модели вроде DeepSeek-V3.2 держат 0 pp на всех уровнях (по крайней мере, на этом типе шума — но об этом ниже).

Особенно иронично, что новейшие модели частично исправили ситуацию для похожего на задачу шума, но всё равно провалились на других типах данных. Например, MiMo-V2.5-Pro сократила падение с −88 до −32 pp относительно предшественницы — это прогресс, но всё ещё критическая уязвимость.

Инсайт №2: «эффект помех» — когда шум становится ответом

Исследование вскрыло основной режим отказа: помеха от ответов (filler-answer interference). Если в филлер вставлены ответы на другие задачи, модель не просто «забывает» условия своей задачи — она галлюцинирует, подставляя вместо решения данные из окружающего её шума.

Статистика поражает: 76% ошибок в середине контекста связаны с тем, что модель выдаёт ответ, относящийся к окружающему «филлеру», а не к самой задаче (против всего 22% ошибок в конце текста). ИИ буквально теряет фокус и переключается на то, что видит рядом. Если поблизости в тексте есть похожий математический пример, нейросеть с высокой вероятностью выдаст ответ от него, даже если логически он не подходит.

Инсайт №3: маркетинговая завеса — о чём молчат вендоры

Маркетинговая завеса: разработчики выпячивают общие показатели, но фактически игнорируют «контекстную гниль»

Маркетинговая завеса: разработчики выпячивают общие показатели, но фактически игнорируют «контекстную гниль»

В ходе аудита официальных отчётов (Model Cards) четырёх ведущих лабораторий (DeepSeek, Xiaomi, Moonshot, Zhipu) выяснилось шокирующее несоответствие.

  • Реальность: из 28 ячеек в главных таблицах результатов вендоров ровно 0 (ноль) содержали данные тестов позиционной устойчивости (NIAH, RULER, LongBench-семейство и т.п.). Ещё в 4 ячейках такие тесты встречаются — но запрятаны в ablation-разделы и проверки на уменьшенной 9B-модели, а не в витрину готового продукта.

  • Маркетинг: в то же время 20 из 28 ячеек гордо демонстрировали успехи в кодинге (SWE-Bench) и агентских задачах.

Разработчики выпячивают общие показатели, но фактически игнорируют «контекстную гниль». Это создаёт ложное чувство безопасности: вы покупаете модель с «отличным кодингом», но она может оказаться бесполезной при анализе сложной логики в середине длинного документа.

Инсайт №4: магия дублирования

Чтобы окончательно подтвердить, что проблема именно в позиции, а не в нехватке знаний, учёные провели тест middle_dup: что будет, если вопрос из середины просто скопировать и вставить ещё раз в самый конец контекста?

  1. На коротком контексте (8K) точность мгновенно возвращается к норме — в пределах ±4 pp у всех девяти моделей.

  2. На длинном контексте (64K) восстановление лишь частичное (например, Qwen и GLM-4.7-FlashX всё равно показывают результат на 10–12 pp хуже базового).

Это подтверждает ироничный факт: модель «знает», как решить задачу, но «включает» логику только тогда, когда вопрос находится в её зоне комфорта — в финальных строках.

Вся картина одним взглядом: где «отключается» логика

Вместо простыни цифр — одна тепловая карта. По строкам — все 9 моделей (сверху начальный сет, под пунктиром — новые релизы), по столбцам — три типа шума × три длины контекста. Цвет ячейки = падение точности в середине (Drop = точность в середине − точность в конце, в pp): чем краснее, тем сильнее коллапс; зелёный — модель держится. Точные значения подписаны прямо в ячейках, так что ничего не потеряно (GSM8K, N=50, seed=42).

Тепловая карта падения точности на GSM8K: модели × типы шума × длина контекста

Тепловая карта падения точности на GSM8K: модели × типы шума × длина контекста

Что моментально считывается с картинки:

  • 🟥 Средний блок (questions_only_v2) красный почти целиком — это и есть главный вывод: «вопросы без ответов» вокруг задачи ломают всех, включая новые релизы и даже невозмутимую DeepSeek-V3.2.

  • 🟩 Левый блок (with_solutions) у новых релизов позеленел — апгрейд реально помог: на 64K три из четырёх держатся в пределах ±6 pp, тогда как старый MiMo-v2-Flash проваливается на −88.

  • 🟩 Правый блок (neutral_text) почти весь зелёный — нейтральная проза безвредна. Единственное исключение — Qwen, у которого уязвимость растёт даже без «отвлекающих» ответов рядом (−30 на 64K).

💡 Главный, но недооценённый вывод: дело не в самой «середине», а в том, чем именно она окружена. Один и тот же сдвиг позиции безобиден среди нейтрального текста и катастрофичен, когда вокруг — похожие задачи без ответов. Поэтому «новые модели всё починили» — миф: на questions_only_v2 проваливаются все, включая флагманы.

Примечание: для Qwen на нейтральном филлере приведены значения, комбинированные по двум сидам (−29/−30 pp); по одному сиду в приложении — −32 pp. Серые ячейки n/a — авторы не измеряли нейтральный шум для новых релизов.

А чтобы убедиться, что эффект не привязан к математике, авторы повторили прогон на ARC-Challenge (научные вопросы формата A/B/C/D):

Падение точности на ARC-Challenge (8K, with_solutions) по моделям

Падение точности на ARC-Challenge (8K, with_solutions) по моделям

Тренд тот же, хотя статистически значимым (после поправки Бонферрони) оказался лишь провал Qwen. И любопытная деталь: апгрейд лечит не всегда — MiMo-V2.5-Pro на ARC оказалась хуже предшественницы (−22 pp против −6 pp), хотя на GSM8K та же модель прогрессировала. Так что «новее = стабильнее» — упрощение, которое работает не везде.

Как нам жить с «контекстной гнилью»?

Сам термин «Context Rot» (контекстная гниль) пришёл из индустрии — его использовали в Chroma Research для деградации поиска; CRE же впервые переносит его на reasoning-сторону, то есть на логические рассуждения, а не только на поиск данных. Мы стоим перед фактом: огромные контекстные окна — это наполовину маркетинговая фикция, пока архитектуры не станут позиционно-стабильными.

Для разработчиков и пользователей из этого вытекает несколько простых правил:

  • Не верьте агрегированным метрикам. Усреднённый скор в 80% может скрывать 100% на концах и 0% в середине.

  • Тестируйте «слепую зону». При оценке модели всегда проверяйте выполнение задачи, спрятанной в глубине документа.

  • Учитывайте интерференцию. Чем больше контекст похож на саму задачу, тем выше риск того, что модель «сворует» ответ из шума.

  • Дублируйте критичное. Если задача решается по длинному документу, дублируйте ключевой промпт в самом конце (эффект middle_dup).

«Заявленные 128K токенов — это размер багажника, но не гарантия того, что ИИ найдет там нужный инструмент».

После того как мы всё это прочитали, стоит задуматься: готовы ли мы доверить ИИ анализ многостраничного юридического контракта или техзадания на 100 страниц, зная, что его логика может «испариться» ровно на 15-й странице? 🤔

Немного критики от меня

Сразу бросается в глаза, что авторы исследования почему-то не стали проверять самые передовые западные модели, а сконцентрировались на моделях из Китая. Это несколько ограничивает общую картину, поэтому мне захотелось повторить эксперимент с моделями OpenAI, Google, Anthropic и т.п.

Оценочно проверка одной модели обойдётся примерно в 30 млн входных токенов. Это, наверное, многовато для моих бюджетов, но я что-нибудь наверняка придумаю — не факт, что нужно настолько много, чтобы сделать выводы (я люблю ультра-бюджетные эксперименты). Если эта статья заинтересует читателей, это станет дополнительной мотивацией [8] продолжить. 🙂 Пишите в комментариях — буду рад почитать ваши взгляды на эту проблему.

P.S. У меня есть скромный телеграм-канал, куда я чаще пишу свои исследовательские мысли, но я не рвусь его рекламировать. Однако если вам вдруг окажется интересно — его несложно найти.

Автор: Tassdesu

Источник [9]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31071

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] AI Independence Bench: https://habr.com/ru/articles/1013180/

[3] Aria: https://habr.com/ru/articles/1007574/

[4] Context Rot Evaluation (CRE): https://arxiv.org/abs/2605.23170

[5] логика: http://www.braintools.ru/article/7640

[6] математика: http://www.braintools.ru/article/7620

[7] случайность: http://www.braintools.ru/article/6560

[8] мотивацией: http://www.braintools.ru/article/9537

[9] Источник: https://habr.com/ru/articles/1041926/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1041926

www.BrainTools.ru

Rambler's Top100