- BrainTools - https://www.braintools.ru -
Ты пишешь вопрос и нажимаешь Enter. Через секунду начинают появляться слова. Кажется, будто кто-то думает и печатает. Но внутри не происходит ничего похожего на мышление [1] — зато происходит кое-что куда более странное и интересное.
Большинство людей представляют языковую модель как умную базу данных: спросил — она нашла ответ и выдала. Это не так.
LLM — это машина, которая предсказывает следующий токен. Всё. Из этой одной простой задачи, повторённой миллиарды раз на триллионах слов текста, вырастает нечто, которое умеет объяснять квантовую физику, писать код и иногда убедительно врать.
Давай разберёмся, как именно.
Первое, что происходит с твоим сообщением — оно разбивается на токены.
Токен — это не слово и не буква. Это статистически удобная единица текста. Слово «кот» — скорее всего один токен. Слово «непроизносимый» — несколько. Редкое имя из трёх букв может оказаться двумя токенами, а частый суффикс «-tion» в английском — одним.
Токенизация строится на частотности. Алгоритм BPE (Byte Pair Encoding) смотрит на огромный корпус текста и объединяет самые частые пары символов в один токен. Получается словарь из 50–100 тысяч токенов.
На практике это объясняет несколько странностей. Модели хуже работают с редкими языками — там каждое слово разбивается на много мелких кусков и контекстное окно «съедается» быстрее. Задачи на подсчёт букв вызывают затруднения именно потому, что модель видит не буквы, а токены, и внутри токена буквы не различаются. Именно поэтому «сколько букв R в слове strawberry?» — классический тест на провал.
После токенизации каждому токену сопоставляется вектор — список из нескольких тысяч чисел. Он называется эмбеддингом и кодирует смысл токена.
Представь карту города. Каждая точка описывается двумя числами — широтой и долготой. Близкие точки — близкие места. В пространстве эмбеддингов то же самое, только измерений не два, а несколько тысяч, и «близость» означает смысловую похожесть.
Слова «кошка» и «собака» окажутся рядом. «Король» минус «мужчина» плюс «женщина» даст вектор, близкий к «королеве» — знаменитый пример, показывающий что в числах закодированы реальные смысловые отношения.
Важно: эмбеддинги не прописываются вручную. Они получаются автоматически в процессе обучения [2]. Модель сама «выясняет», что кошки и собаки похожи, просто читая текст.
До трансформеров нейросети обрабатывали текст последовательно — слово за словом. Это создавало проблему: к концу длинного предложения начало уже «забывалось».
Трансформер решил это радикально: смотреть на все токены сразу и для каждого вычислять, насколько каждый другой токен важен прямо сейчас. Этот механизм называется self-attention.
Для каждого токена вычисляются три вектора: Query («что я ищу?»), Key («что я предлагаю?») и Value («что отдам, если меня выбрали?»). Токен сравнивает свой Query с Key каждого другого и получает веса — числа, показывающие, насколько каждый другой токен важен для него.
В предложении «Маша дала Кате книгу, которую та давно хотела» слово «та» должно понять, что относится к «Кате». Механизм внимания [3] позволяет слову буквально «посмотреть» на все предыдущие токены и найти нужный.
Таких «голов» внимания в современных моделях несколько десятков. Каждая следит за своим: одна — за синтаксисом, другая — за кореференциями, третья — за тематическими связями. Всё параллельно.

Один блок self-attention — это ещё не вся модель. Трансформер состоит из множества таких блоков, уложенных стопкой. Даже скромные модели имеют их десятки.
Зачем столько? Потому что понимание текста — многоуровневая задача. Нижние слои улавливают поверхностные паттерны: части речи, грамматику. Средние работают с семантикой — кто что делает, какие сущности связаны. Верхние отвечают за что-то похожее на рассуждение — факты, логика [4], контекст всего разговора.
Каждый слой берёт представление токенов из предыдущего, обогащает его и передаёт дальше. К верхнему слою каждый токен уже «знает» о себе всё, что можно было извлечь из контекста.
Модель не выдаёт следующее слово. Она выдаёт распределение вероятностей по всему словарю — для каждого из 50–100 тысяч токенов вычисляется число: насколько вероятно, что именно он должен идти следующим.
«Москва — столица» → «России» 78%, «нашей» 9%, «бывшего» 3%… и так для всех токенов словаря.
Дальше происходит сэмплинг — выбор конкретного токена. Здесь появляются параметры из настроек API.
Temperature управляет «резкостью» распределения. При температуре близкой к нулю модель почти всегда выбирает самый вероятный токен — ответы предсказуемые и повторяющиеся. При высокой — вероятности выравниваются, модель чаще выбирает неожиданные токены. Отсюда и «творческий режим», и галлюцинации.
Top-p ограничивает выбор только токенами, суммарная вероятность которых не превышает p. При top-p = 0.9 модель рассматривает только «ядро» наиболее вероятных токенов и игнорирует весь длинный хвост маловероятных вариантов.
Модель генерирует текст по одному токену за раз. После того как токен выбран, он добавляется к контексту, и вся процедура запускается заново для следующего токена.
Именно поэтому ответ появляется постепенно — это не анимация для красоты, это буквально то, как работает генерация.
Из этого вытекают важные следствия. Модель не может «передумать» посередине предложения. Если в начале написала «Я согласен» — весь дальнейший текст генерируется в контексте этого «согласен», даже если по логике нужно было написать обратное. Этим объясняется, почему модели иногда уверенно гонят чушь до конца абзаца.
И именно поэтому промпты «думай шаг за шагом» реально работают: они заставляют модель генерировать промежуточные токены-рассуждения, которые потом влияют на финальный ответ.
Всё описанное выше — это архитектура. Сама по себе она ничего не умеет. Смысл появляется в процессе обучения.
Задача простая: дай тексту, скрой последнее слово, пусть модель угадает. Сравни с правильным ответом, посчитай ошибку [5], скорректируй веса. Повтори триллион раз.
Веса модели — это спрессованные знания. Числа, которых в крупных моделях более триллиона, кодируют всё прочитанное: факты, стили, логические паттерны, причинно-следственные связи. Всё это неявно закодировано в весах — не в виде базы данных, а в виде миллиардов слегка подкрученных чисел.
Читать про то, как модели рассуждают — одно. Наблюдать это в реальном времени — другое.
Попробуй этого телеграм-бота [6] — внутри ChatGPT, Gemini, Grok и DeepSeek, бесплатно. Дай одинаковый запрос разным моделям и посмотри, как по-разному они выстраивают ответ. Например, спроси что-нибудь неоднозначное — «докажи, что 0.999… = 1» или «объясни парадокс [7] Ферми». Разница в подходах хорошо показывает, что у каждой модели свой «характер» — сформированный архитектурой, данными и настройкой.
1. Модель не знает, что написала секунду назад
Между вызовами модель не хранит никакого состояния. «Память» ChatGPT — это просто очень длинный текстовый файл, который растёт с каждым сообщением и в какой-то момент упирается в лимит контекстного окна. Никакой «памяти» в человеческом смысле нет.
2. Длинный контекст — это дорого математически [8]
Self-attention вычислительно стоит O(n²) от длины контекста. Удвоил длину — получил вчетверо больше вычислений. Именно поэтому окно в миллион токенов — инженерный подвиг, а не просто «добавили памяти».
3. Одинаковый запрос даёт разные ответы намеренно
Это не баг. Temperature > 0 означает, что каждый раз сэмплинг проходит чуть иначе. Если нужна воспроизводимость — явно ставь temperature = 0 и фиксируй seed.
4. Галлюцинации — обратная сторона интеллекта [9]
Механизм, позволяющий модели обобщать знания и отвечать на вопросы, которых не было в обучающих данных — тот же самый, который заставляет её иногда уверенно придумывать несуществующие факты. Это не ошибка реализации, это цена за способность к обобщению.
5. Модель не понимает слова — она понимает паттерны
LLM никогда не видела реального кота. Она видела миллиарды предложений, в которых слово «кот» стояло рядом с «мурлыкает», «лапа», «хвост», «ветеринар». Всё её «знание» о кошках — это статистика соседства токенов. То, что это работает — само по себе удивительно.
LLM — не поисковик, не база данных и не цифровой человек. Это статистическая машина, обученная предсказывать текст на таком масштабе, что предсказание стало неотличимо от понимания — по крайней мере внешне.
Понимать устройство этой машины полезно не чтобы разрушить магию. А чтобы знать, где она работает идеально, где её легко сломать — и почему иногда она блестяще отвечает на вопрос, которого никто никогда не задавал.
Автор: Lordneo
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/31356
URLs in this post:
[1] мышление: http://www.braintools.ru/thinking
[2] обучения: http://www.braintools.ru/article/5125
[3] внимания: http://www.braintools.ru/article/7595
[4] логика: http://www.braintools.ru/article/7640
[5] ошибку: http://www.braintools.ru/article/4192
[6] этого телеграм-бота: https://t.me/ChatGPTAIAssistantBot
[7] парадокс: http://www.braintools.ru/article/8221
[8] математически: http://www.braintools.ru/article/7620
[9] интеллекта: http://www.braintools.ru/article/7605
[10] Источник: https://habr.com/ru/articles/1044360/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044360
Нажмите здесь для печати.