Проблема контекстного окна: Почему AI забывает середину длинного текста

В недавнем интервью ^[1] бывший генеральный директор Google Эрик Шмидт заявил, что контекстное окно больших языковых моделей (LLM) можно использовать как краткосрочную память ^[2]. Однако есть проблема — если загрузить достаточно длинный текст ^[3] (например, несколько книг) в контекстное окно, AI забудет середину.

По словам Шмидта, это делает AI похожим на людей, поскольку, по его мнению, человеческий мозг ^[4] ведет себя так же. Но это утверждение неправильно по двум причинам.

Контекстное окно — это объем текста, который LLM может видеть и учитывать при создании нового текста. Важно понимать, что это не вся информация, на которой была обучена модель, а только небольшой фрагмент, который используется непосредственно для генерации ответа.

С математической точки зрения ^[5] нейросеть — это не поисковая система, ^[6] а инструмент для анализа статистических данных. Она предсказывает слова и значения на основе массивов данных, на которых была обучена. Для этого LLM использует весовые параметры, ^[7] представляющие собой специальные вектора.

По этой причине любой текст, вводимый в LLM, превращается в набор чисел ^[8] — этот процесс называется эмбеддингом. Причем каждый фрагмент текста, вне зависимости от его длины, вводится в виде цифровой последовательности одинаковой длины.

Этот набор чисел — это не код содержания текста, а координаты точки ^[9] в векторной базе данных. Чем выше размерность этой базы, тем длиннее будет последовательность чисел, кодирующих эту точку. В некоторых продвинутых языковых моделях эта последовательность может быть очень длинной (например, координаты точки ^[10] в пространстве размерностью 3072).

Однако, несмотря на сложность, это всего лишь координаты в многомерном пространстве — ничего больше.

В векторной базе данных ^[11] AI эти точки группируются по смысловым значениям. Например, точки, связанные со страхом ^[12], будут находиться рядом с точками, связанными с ужасом, а радости — рядом с точками, связанными с удовольствием. Таким образом, задача нейросети заключается в поиске ближайших точек, которые имеют смысловую связь с запросом и другими частями генерируемого ответа.

Проще говоря, чем ближе смысл, тем ближе точки. И чем выше размерность модели, ^[7] тем точнее анализ смыслов и связей между ними.

Этот процесс напоминает попытку параллельно соединить две спутанные веревки: ^[13] длинную и короткую. Как бы вы ни старались, у вас идеально совпадут только начала и концы обеих веревок. В середине обязательно возникнут проблемы — она не будет совпадать из-за разной степени запутанности и длины веревок. В контексте LLM это означает, что AI просто не может математически ^[14] совместить все части длинного запроса, чтобы дать связный ответ, не теряя информации из середины.

По этой причине AI лучше справляется с короткими запросами — они требуют меньше усилий для поддержания смысловой связности.

В отличие от AI, мозг человека ^[15] действительно запоминает начало и конец текста лучше, но это связано с двумя независимыми процессами.

Эффект первичности, ^[16] описанный Беннетом Мёрдоком в 1962 году, объясняет запоминание ^[17] начала текста тем, что первые элементы получают больше внимания ^[18], и поэтому они переносятся в долгосрочную память. Однако длина текста, наоборот, ослабляет этот эффект.

Эффект новизны, ^[19] впервые описанный Гланцером и Куницем в 1966 году, объясняет запоминание конца текста особенностями кратковременной памяти ^[20]. Этот эффект слабее, чем первичность, и связан с тем, что кратковременная память ^[21] ограничена по объему и фиксируется на последних элементах.

Эти примеры показывают, что схожие явления в AI и человеческом мозге — это скорее совпадения, чем признаки системного сходства.

Источник ^[22]

Автор: cognitronn

Источник ^[23]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12019

URLs in this post:

[1] недавнем интервью: https://www.ft.com/content/2d8e7f0c-73a2-4ae6-97b2-83661e848e84

[2] память: http://www.braintools.ru/article/4140

[3] загрузить достаточно длинный текст: https://arxiv.org/abs/2305.10973

[4] мозг: http://www.braintools.ru/parts-of-the-brain

[5] зрения: http://www.braintools.ru/article/6238

[6] поисковая система,: https://en.wikipedia.org/wiki/Search_engine

[7] весовые параметры,: https://ai.googleblog.com/2020/04/finding-structure-in-neural-networks.html

[8] набор чисел: https://en.wikipedia.org/wiki/Word_embedding

[9] координаты точки: https://arxiv.org/abs/1706.03762

[10] координаты точки: https://www.linkedin.com/pulse/finding-better-way-embedding-real-data-fuzzy-world-nicolas-dubourg/

[11] векторной базе данных: https://towardsdatascience.com/word-embeddings-explained-7112a7e0f2eb

[12] страхом: http://www.braintools.ru/article/6134

[13] две спутанные веревки:: https://en.wikipedia.org/wiki/Rope_theory

[14] математически: http://www.braintools.ru/article/7620

[15] мозг человека: http://www.braintools.ru/article/7543

[16] Эффект первичности,: https://en.wikipedia.org/wiki/Serial_position_effect

[17] запоминание: http://www.braintools.ru/article/722

[18] внимания: http://www.braintools.ru/article/7595

[19] Эффект новизны,: https://en.wikipedia.org/wiki/Recency_effect

[20] кратковременной памяти: http://www.braintools.ru/article/9493

[21] кратковременная память: http://www.braintools.ru/article/9285

[22] Источник: https://bdtechtalks.com/2025/02/05/the-context-window-problem-or-why-llm-forgets-the-middle-of-a-long-file/

[23] Источник: https://habr.com/ru/companies/bothub/news/880718/?utm_source=habrahabr&utm_medium=rss&utm_campaign=880718

Нажмите здесь для печати.