- BrainTools - https://www.braintools.ru -
В недавнем интервью [1] бывший генеральный директор Google Эрик Шмидт заявил, что контекстное окно больших языковых моделей (LLM) можно использовать как краткосрочную память [2]. Однако есть проблема — если загрузить достаточно длинный текст [3] (например, несколько книг) в контекстное окно, AI забудет середину.

По словам Шмидта, это делает AI похожим на людей, поскольку, по его мнению, человеческий мозг [4] ведет себя так же. Но это утверждение неправильно по двум причинам.
Контекстное окно — это объем текста, который LLM может видеть и учитывать при создании нового текста. Важно понимать, что это не вся информация, на которой была обучена модель, а только небольшой фрагмент, который используется непосредственно для генерации ответа.
С математической точки зрения [5] нейросеть — это не поисковая система, [6] а инструмент для анализа статистических данных. Она предсказывает слова и значения на основе массивов данных, на которых была обучена. Для этого LLM использует весовые параметры, [7] представляющие собой специальные вектора.
По этой причине любой текст, вводимый в LLM, превращается в набор чисел [8] — этот процесс называется эмбеддингом. Причем каждый фрагмент текста, вне зависимости от его длины, вводится в виде цифровой последовательности одинаковой длины.
Этот набор чисел — это не код содержания текста, а координаты точки [9] в векторной базе данных. Чем выше размерность этой базы, тем длиннее будет последовательность чисел, кодирующих эту точку. В некоторых продвинутых языковых моделях эта последовательность может быть очень длинной (например, координаты точки [10] в пространстве размерностью 3072).
Однако, несмотря на сложность, это всего лишь координаты в многомерном пространстве — ничего больше.
В векторной базе данных [11] AI эти точки группируются по смысловым значениям. Например, точки, связанные со страхом [12], будут находиться рядом с точками, связанными с ужасом, а радости — рядом с точками, связанными с удовольствием. Таким образом, задача нейросети заключается в поиске ближайших точек, которые имеют смысловую связь с запросом и другими частями генерируемого ответа.
Проще говоря, чем ближе смысл, тем ближе точки. И чем выше размерность модели, [7] тем точнее анализ смыслов и связей между ними.
Этот процесс напоминает попытку параллельно соединить две спутанные веревки: [13] длинную и короткую. Как бы вы ни старались, у вас идеально совпадут только начала и концы обеих веревок. В середине обязательно возникнут проблемы — она не будет совпадать из-за разной степени запутанности и длины веревок. В контексте LLM это означает, что AI просто не может математически [14] совместить все части длинного запроса, чтобы дать связный ответ, не теряя информации из середины.
По этой причине AI лучше справляется с короткими запросами — они требуют меньше усилий для поддержания смысловой связности.
В отличие от AI, мозг человека [15] действительно запоминает начало и конец текста лучше, но это связано с двумя независимыми процессами.
Эффект первичности, [16] описанный Беннетом Мёрдоком в 1962 году, объясняет запоминание [17] начала текста тем, что первые элементы получают больше внимания [18], и поэтому они переносятся в долгосрочную память. Однако длина текста, наоборот, ослабляет этот эффект.
Эффект новизны, [19] впервые описанный Гланцером и Куницем в 1966 году, объясняет запоминание конца текста особенностями кратковременной памяти [20]. Этот эффект слабее, чем первичность, и связан с тем, что кратковременная память [21] ограничена по объему и фиксируется на последних элементах.
Эти примеры показывают, что схожие явления в AI и человеческом мозге — это скорее совпадения, чем признаки системного сходства.
Источник [22]
Автор: cognitronn
Источник [23]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12019
URLs in this post:
[1] недавнем интервью: https://www.ft.com/content/2d8e7f0c-73a2-4ae6-97b2-83661e848e84
[2] память: http://www.braintools.ru/article/4140
[3] загрузить достаточно длинный текст: https://arxiv.org/abs/2305.10973
[4] мозг: http://www.braintools.ru/parts-of-the-brain
[5] зрения: http://www.braintools.ru/article/6238
[6] поисковая система,: https://en.wikipedia.org/wiki/Search_engine
[7] весовые параметры,: https://ai.googleblog.com/2020/04/finding-structure-in-neural-networks.html
[8] набор чисел: https://en.wikipedia.org/wiki/Word_embedding
[9] координаты точки: https://arxiv.org/abs/1706.03762
[10] координаты точки: https://www.linkedin.com/pulse/finding-better-way-embedding-real-data-fuzzy-world-nicolas-dubourg/
[11] векторной базе данных: https://towardsdatascience.com/word-embeddings-explained-7112a7e0f2eb
[12] страхом: http://www.braintools.ru/article/6134
[13] две спутанные веревки:: https://en.wikipedia.org/wiki/Rope_theory
[14] математически: http://www.braintools.ru/article/7620
[15] мозг человека: http://www.braintools.ru/article/7543
[16] Эффект первичности,: https://en.wikipedia.org/wiki/Serial_position_effect
[17] запоминание: http://www.braintools.ru/article/722
[18] внимания: http://www.braintools.ru/article/7595
[19] Эффект новизны,: https://en.wikipedia.org/wiki/Recency_effect
[20] кратковременной памяти: http://www.braintools.ru/article/9493
[21] кратковременная память: http://www.braintools.ru/article/9285
[22] Источник: https://bdtechtalks.com/2025/02/05/the-context-window-problem-or-why-llm-forgets-the-middle-of-a-long-file/
[23] Источник: https://habr.com/ru/companies/bothub/news/880718/?utm_source=habrahabr&utm_medium=rss&utm_campaign=880718
Нажмите здесь для печати.