Что происходит внутри LLM, когда ты отправляешь сообщение

Ты пишешь вопрос и нажимаешь Enter. Через секунду начинают появляться слова. Кажется, будто кто-то думает и печатает. Но внутри не происходит ничего похожего на мышление ^[1] — зато происходит кое-что куда более странное и интересное.

Главное заблуждение

Большинство людей представляют языковую модель как умную базу данных: спросил — она нашла ответ и выдала. Это не так.

LLM — это машина, которая предсказывает следующий токен. Всё. Из этой одной простой задачи, повторённой миллиарды раз на триллионах слов текста, вырастает нечто, которое умеет объяснять квантовую физику, писать код и иногда убедительно врать.

Давай разберёмся, как именно.

Шаг 1. Твой текст перестаёт быть текстом

Первое, что происходит с твоим сообщением — оно разбивается на токены.

Токен — это не слово и не буква. Это статистически удобная единица текста. Слово «кот» — скорее всего один токен. Слово «непроизносимый» — несколько. Редкое имя из трёх букв может оказаться двумя токенами, а частый суффикс «-tion» в английском — одним.

Токенизация строится на частотности. Алгоритм BPE (Byte Pair Encoding) смотрит на огромный корпус текста и объединяет самые частые пары символов в один токен. Получается словарь из 50–100 тысяч токенов.

На практике это объясняет несколько странностей. Модели хуже работают с редкими языками — там каждое слово разбивается на много мелких кусков и контекстное окно «съедается» быстрее. Задачи на подсчёт букв вызывают затруднения именно потому, что модель видит не буквы, а токены, и внутри токена буквы не различаются. Именно поэтому «сколько букв R в слове strawberry?» — классический тест на провал.

Шаг 2. Числа вместо слов

После токенизации каждому токену сопоставляется вектор — список из нескольких тысяч чисел. Он называется эмбеддингом и кодирует смысл токена.

Представь карту города. Каждая точка описывается двумя числами — широтой и долготой. Близкие точки — близкие места. В пространстве эмбеддингов то же самое, только измерений не два, а несколько тысяч, и «близость» означает смысловую похожесть.

Слова «кошка» и «собака» окажутся рядом. «Король» минус «мужчина» плюс «женщина» даст вектор, близкий к «королеве» — знаменитый пример, показывающий что в числах закодированы реальные смысловые отношения.

Важно: эмбеддинги не прописываются вручную. Они получаются автоматически в процессе обучения ^[2]. Модель сама «выясняет», что кошки и собаки похожи, просто читая текст.

Шаг 3. Сердце трансформера — механизм внимания

До трансформеров нейросети обрабатывали текст последовательно — слово за словом. Это создавало проблему: к концу длинного предложения начало уже «забывалось».

Трансформер решил это радикально: смотреть на все токены сразу и для каждого вычислять, насколько каждый другой токен важен прямо сейчас. Этот механизм называется self-attention.

Для каждого токена вычисляются три вектора: Query («что я ищу?»), Key («что я предлагаю?») и Value («что отдам, если меня выбрали?»). Токен сравнивает свой Query с Key каждого другого и получает веса — числа, показывающие, насколько каждый другой токен важен для него.

В предложении «Маша дала Кате книгу, которую та давно хотела» слово «та» должно понять, что относится к «Кате». Механизм внимания ^[3] позволяет слову буквально «посмотреть» на все предыдущие токены и найти нужный.

Таких «голов» внимания в современных моделях несколько десятков. Каждая следит за своим: одна — за синтаксисом, другая — за кореференциями, третья — за тематическими связями. Всё параллельно.

Что происходит внутри LLM, когда ты отправляешь сообщение - 1

Шаг 4. Слои — обработка идёт вглубь

Один блок self-attention — это ещё не вся модель. Трансформер состоит из множества таких блоков, уложенных стопкой. Даже скромные модели имеют их десятки.

Зачем столько? Потому что понимание текста — многоуровневая задача. Нижние слои улавливают поверхностные паттерны: части речи, грамматику. Средние работают с семантикой — кто что делает, какие сущности связаны. Верхние отвечают за что-то похожее на рассуждение — факты, логика ^[4], контекст всего разговора.

Каждый слой берёт представление токенов из предыдущего, обогащает его и передаёт дальше. К верхнему слою каждый токен уже «знает» о себе всё, что можно было извлечь из контекста.

Шаг 5. На выходе — не слово, а вероятности

Модель не выдаёт следующее слово. Она выдаёт распределение вероятностей по всему словарю — для каждого из 50–100 тысяч токенов вычисляется число: насколько вероятно, что именно он должен идти следующим.

«Москва — столица» → «России» 78%, «нашей» 9%, «бывшего» 3%… и так для всех токенов словаря.

Дальше происходит сэмплинг — выбор конкретного токена. Здесь появляются параметры из настроек API.

Temperature управляет «резкостью» распределения. При температуре близкой к нулю модель почти всегда выбирает самый вероятный токен — ответы предсказуемые и повторяющиеся. При высокой — вероятности выравниваются, модель чаще выбирает неожиданные токены. Отсюда и «творческий режим», и галлюцинации.

Top-p ограничивает выбор только токенами, суммарная вероятность которых не превышает p. При top-p = 0.9 модель рассматривает только «ядро» наиболее вероятных токенов и игнорирует весь длинный хвост маловероятных вариантов.

Шаг 6. Слово за словом — авторегрессия

Модель генерирует текст по одному токену за раз. После того как токен выбран, он добавляется к контексту, и вся процедура запускается заново для следующего токена.

Именно поэтому ответ появляется постепенно — это не анимация для красоты, это буквально то, как работает генерация.

Из этого вытекают важные следствия. Модель не может «передумать» посередине предложения. Если в начале написала «Я согласен» — весь дальнейший текст генерируется в контексте этого «согласен», даже если по логике нужно было написать обратное. Этим объясняется, почему модели иногда уверенно гонят чушь до конца абзаца.

И именно поэтому промпты «думай шаг за шагом» реально работают: они заставляют модель генерировать промежуточные токены-рассуждения, которые потом влияют на финальный ответ.

Откуда берутся знания

Всё описанное выше — это архитектура. Сама по себе она ничего не умеет. Смысл появляется в процессе обучения.

Задача простая: дай тексту, скрой последнее слово, пусть модель угадает. Сравни с правильным ответом, посчитай ошибку ^[5], скорректируй веса. Повтори триллион раз.

Веса модели — это спрессованные знания. Числа, которых в крупных моделях более триллиона, кодируют всё прочитанное: факты, стили, логические паттерны, причинно-следственные связи. Всё это неявно закодировано в весах — не в виде базы данных, а в виде миллиардов слегка подкрученных чисел.

Попробуй сам почувствовать разницу

Читать про то, как модели рассуждают — одно. Наблюдать это в реальном времени — другое.

Попробуй этого телеграм-бота ^[6] — внутри ChatGPT, Gemini, Grok и DeepSeek, бесплатно. Дай одинаковый запрос разным моделям и посмотри, как по-разному они выстраивают ответ. Например, спроси что-нибудь неоднозначное — «докажи, что 0.999… = 1» или «объясни парадокс ^[7] Ферми». Разница в подходах хорошо показывает, что у каждой модели свой «характер» — сформированный архитектурой, данными и настройкой.

Пять фактов, которые реально удивляют

1. Модель не знает, что написала секунду назад

Между вызовами модель не хранит никакого состояния. «Память» ChatGPT — это просто очень длинный текстовый файл, который растёт с каждым сообщением и в какой-то момент упирается в лимит контекстного окна. Никакой «памяти» в человеческом смысле нет.

2. Длинный контекст — это дорого математически ^[8]

Self-attention вычислительно стоит O(n²) от длины контекста. Удвоил длину — получил вчетверо больше вычислений. Именно поэтому окно в миллион токенов — инженерный подвиг, а не просто «добавили памяти».

3. Одинаковый запрос даёт разные ответы намеренно

Это не баг. Temperature > 0 означает, что каждый раз сэмплинг проходит чуть иначе. Если нужна воспроизводимость — явно ставь temperature = 0 и фиксируй seed.

4. Галлюцинации — обратная сторона интеллекта ^[9]

Механизм, позволяющий модели обобщать знания и отвечать на вопросы, которых не было в обучающих данных — тот же самый, который заставляет её иногда уверенно придумывать несуществующие факты. Это не ошибка реализации, это цена за способность к обобщению.

5. Модель не понимает слова — она понимает паттерны

LLM никогда не видела реального кота. Она видела миллиарды предложений, в которых слово «кот» стояло рядом с «мурлыкает», «лапа», «хвост», «ветеринар». Всё её «знание» о кошках — это статистика соседства токенов. То, что это работает — само по себе удивительно.

Вместо заключения

LLM — не поисковик, не база данных и не цифровой человек. Это статистическая машина, обученная предсказывать текст на таком масштабе, что предсказание стало неотличимо от понимания — по крайней мере внешне.

Понимать устройство этой машины полезно не чтобы разрушить магию. А чтобы знать, где она работает идеально, где её легко сломать — и почему иногда она блестяще отвечает на вопрос, которого никто никогда не задавал.

Автор: Lordneo

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31356

URLs in this post:

[1] мышление: http://www.braintools.ru/thinking

[2] обучения: http://www.braintools.ru/article/5125

[3] внимания: http://www.braintools.ru/article/7595

[4] логика: http://www.braintools.ru/article/7640

[5] ошибку: http://www.braintools.ru/article/4192

[6] этого телеграм-бота: https://t.me/ChatGPTAIAssistantBot

[7] парадокс: http://www.braintools.ru/article/8221

[8] математически: http://www.braintools.ru/article/7620

[9] интеллекта: http://www.braintools.ru/article/7605

[10] Источник: https://habr.com/ru/articles/1044360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044360

Нажмите здесь для печати.