Дисклеймер: данная лекция подготовлена в первую очередь для непрофильных студентов магистратуры и аспирантуры, которые используют ИИ в учебной, исследовательской и профессиональной деятельности. Материал носит вводный характер и содержит намеренные упрощения. В то же время лекция может быть полезна и более широкой аудитории пользователей ИИ. Буду признателен за замечания и предложения по улучшению.
Серия «Базовый минимум» (4 части):
Базовый минимум. Часть 1: большие языковые модели (вы здесь);
Базовый минимум. Часть 2: промпт-инжиниринг;
Базовый минимум. Часть 3: RAG-системы;
Базовый ��инимум. Часть 4: ИИ-агенты.
«Смысл слова определяется не самим словом, а контекстом, в котором оно встречается» — Джон Р. Фёрт
Что такое языковая модель
Когда мы говорим о языковой модели (LM, Language model), мы имеем в виду систему, которая оценивает вероятность появления слова в контексте предыдущих. Формально это описывается выражением:
P(wt | w1, w2, …, wt-1).
Именно эта идея, предсказание следующего слова (точнее, токена) по контексту, лежит в основе всех современных моделей, от простых статистических до больших нейросетевых. Развитие языковых моделей проходило несколько ключевых этапов:
Первый этап — статистические модели, или n-граммы. Они основывались на подсчете частот: как часто одно слово следует за другим. Например, если слова искусственный и интеллект часто встречаются вместе, модель делает вывод, что такая последовательность вероятна. Эти модели были простыми и быстрыми, но имели серьезное ограничение: они учитывали только короткие фрагменты (обычно 2–3 слова), не учитывали последовательность и семантику текста.
Второй этап — векторные представления (word2vec и GloVe). Здесь произошел переход от подсчета частот к моделированию смысла. Каждое слово стало описываться как точка в многомерном пространстве (эмбеддинг), в котором расстояние между точками отражает семантическую близость. Например, слова ученый и исследователь будут располагаться рядом, а ученый и автомобиль далеко.
Третий этап — архитектура трансформеров. Она ввела механизм внимания (attention), который позволяет модели учитывать связи между словами в тексте не только с соседями, но и с более дальними фрагментами. Именно эта архитектура стала основой современных больших языковых моделей (LLM, Large language model), способных понимать и генерировать тексты, близк��е по качеству к человеческим.
Таким образом, развитие языковых моделей — это движение от подсчета вероятностей к пониманию контекста и смысла. Для лучшего понимания того, как работают и как были получены эмбеддинги рекомендуется почитать этот материал.
Что такое большая языковая модель
LLM — это логическое продолжение классических языковых моделей, но в совершенно ином масштабе. Когда мы говорим «большая», речь идет не только о размере сети, но и о масштабе обучающих данных, числе параметров и спектре задач, которые модель способна решать.
Современные LLM обучаются на сотнях миллиардов токенов на больших корпусах текстов: книгах, статьях, коде, форумах, документации. Число параметров таких моделей исчисляется десятками и сотнями миллиардов: это веса нейросети, в которых закрепляются статистические связи между токенами и контекстами. Поэтому в описаниях моделей часто встречаются обозначения вроде 7B, 14B, 70B или 175B — здесь буква B (billion) означает «миллиард параметров» или «весов». Небольшие модели (например, 7B–14B) можно запускать локально на персональном компьютере, особенно в сжатом (квантованном) виде. А модели размером в десятки и сотни миллиардов параметров обычно требуют серверов и GPU-кластеров.
Но, когда модель достигает такого масштаба, она перестает быть просто «языковой» в узком смысле. Обрабатывая огромные объемы текстов, она начинает улавливать не только закономерности слов, но и устойчивые закономерности знаний, выраженные в языке. Язык не только инструмент общения, но и форма фиксации коллективного опыта. Поэтому, обучаясь языку, модель частично усваивает знания, которые в этом языке закодированы. Именно поэтому такие системы называют фундаментальными моделями (foundation models): они становятся основой для прикладных решений: от простых ассистентов до аналитических систем и генераторов изображений.
Инструктивные модели
После появления LLM стало очевидно, что они обладают знаниями, но не всегда умеют применять их так, как этого ждет человек.
Модель могла продолжать текст, но не всегда «понимала», где нужно ответить, где объяснить, а где рассуждать. Следующий шаг инструктивные модели (instruct LLM), которые учатся не просто предсказывать следующее слово, а следовать инструкции. Идея проста: можно научить модель распознавать формулировку задачи и тип ожидаемого ответа.
Для этого модели дообучают на специально подготовленных наборах «запрос — ответ», где примеры показывают, как должна вести себя система. Чтобы сделать ответы более естественными и полезными, часто используют обучение с подкреплением на основе человеческих оценок (RLHF). Люди оценивают варианты ответов, и модель постепенно усваивает предпочтительные формы поведения: быть вежливой, последовательной и лучше следовать инструкции.
Результатом стали диалоговые модели, которые способны не просто генерировать текст, а вести разговор: уточнять запрос, предлагать план решения и объяснять ход мысли. Благодаря этому появились универсальные чаты, такие как ChatGPT, Claude, Gemini, GigaChat, DeepSeek и другие.
Что такое токены
Чтобы понять, как LLM обрабатывает текст, важно учитывать, что она работает не со словами напрямую, а с токенами — минимальными единицами, на которые разбивается строка. Токеном может быть целое слово, часть слова, пробел или знак пунктуации, поэт��му длина текста в токенах не совпадает с количеством слов.
Перед генерацией ответа входной текст проходит этап токенизации: токенизатор преобразует фразу в последовательность токенов, которые затем переводятся в числовые представления и подаются в модель.
Токенизация опирается на заранее построенный словарь токенов (tokenizer vocabulary), который формируется на большом корпусе текстов. Обычно словарь строится итеративно: алгоритм выделяет часто встречающиеся последовательности символов и постепенно объединяет их в более крупные единицы, поэтому в итоге встречаются как целые слова, так и устойчивые части слов.
На практике именно токены определяют технические ограничения работы модели: максимальный размер контекстного окна (context window) задаётся числом токенов, ими же ограничивается длина генерации, и при работе через API стоимость часто считают по числу токенов.
Параметры LLM
У LLM, помимо архитектуры и данных, есть два практических параметра, которые особенно заметно меняют поведение модели: temperature и max tokens.
Temperature отвечает за степень случайности при выборе следующего токена. При низких значениях модель почти всегда выбирает наиболее вероятное продолжение, а ответы получаются более стабильными и повторяемыми. При повышении temperature распределение сглаживается и модель чаще выбирает менее вероятные варианты, поэтому растет разнообразие формулировок и идей, но одновременно может снижаться фактическая надежность и увеличиваться риск неточностей.
Второй параметр — max tokens: он задает верхнюю границу длины генерируемого ответа и, по сути, управляет тем, насколько развернуто модель может отвечать. Это важно в прикладных системах, поскольку помогает избегать слишком длинных выводов и удерживать предсказуемый формат ответа.
Мультимодальные модели
После того как модели научились понимать инструкции и выполнять задачи, следующий шаг стал очевиден: научить их «видеть» и «слышать», то есть воспринимать информацию не только через текст. Так появились мультимодальные модели — это системы, которые работают одновременно с разными типами данных: текстом, изображениями, звуком, видео, кодом и таблицами.
Идея здесь в том, чтобы объединить разные формы информации в единое смысловое пространство. Если раньше модель опиралась только на языковые закономерности, теперь она учится связывать слова с визуальными и другими сигналами. Например, она может описать изображение, интерпретировать график или ответить на вопрос по фотографии.
Технически это достигается с помощью архитектур, в которых текстовые и токены других модальностей обрабатываются совместно. Так формируется универсальное представление, которое связывает информацию разной природы. В результате появились системы нового типа: GPT-4o, Gemini, Claude 3, DeepSeek-Vision.
Заключение
LLM сделали работу с текстом, знаниями и задачами на естественном языке по-настоящему универсальной: одна и та же система может объяснять, обобщать, переводить, писать код и многое другое. Не обошлось и без ограничений: модель может ошибаться и «галлюцинировать», быть чувствительной к формулировке запроса, не иметь доступа к актуальным данным и упираться в лимиты контекстного окна. Именно эти ограничения привели к появлению множества практик и технологий вокруг LLM, таких как промпт-инжиниринг и RAG-системы.
Далее — Базовый минимум: промпт-инжиниринг (в разработке).
Список используемых источников
1. Как работают языковые модели [Электронный ресурс] // Яндекс Практикум. — 05 сентября 2024. — URL: https://practicum.yandex.ru/blog/yazykovye-modeli-i-kak-oni-rabotayut/ (дата обращения: 03.01.2026).
2. Гайд по работе языковых моделей для начинающих [Электронный ресурс] // Хабр : блог компании Skillfactory. — 20.08.2024. — URL: https://habr.com/ru/companies/skillfactory/articles/837366/ (дата обращения: 03.01.2026).
3. Параметры LLM : документация Yandex Cloud (Yandex AI Studio) [Электронный ресурс] // Yandex Cloud. — Обновлена 20 ноября 2025 г. — URL: https://yandex.cloud/ru/docs/ai-studio/gpt-prompting-guide/introduction/llm-settings (дата обращения: 03.01.2026).
4. Yin S., Fu C., Zhao S., Li K., Sun X., Xu T., Chen E. A survey on multimodal large language models // National Science Review. — 2024. — Vol. 11, Iss. 12. — Art. nwae403. — DOI: 10.1093/nsr/nwae403. — URL: https://academic.oup.com/nsr/article/11/12/nwae403/7896414 (дата обращения: 03.01.2026).
5. Introduction to CLIP [Электронный ресурс] // OpenCV Blog. — 16.07.2025. — URL: https://opencv.org/blog/clip/ (дата обращения: 03.01.2026).
Автор: Sherstpasha


