За кулисами нейросетей: полный цикл тренировки языкового ИИ

Ты уже пользуешься языковыми моделями — спрашиваешь, генерируешь, отлаживаешь код. Но откуда берётся сама способность отвечать? Не «где хранятся данные», а именно — как из случайно инициализированной матрицы чисел вырастает нечто, способное объяснить теорему Гёделя, написать резюме или найти баг в чужом коде?

Ответ не в магии и не в «огромной базе данных». Под капотом — три последовательных этапа обучения ^[1]. Каждый решает строго свою задачу, и без предыдущего следующий просто невозможен. Разберём каждый по очереди.

Этап первый: предобучение — строим фундамент

Представь, что тебе дали всю Википедию, половину интернета, миллионы книг и кодовых репозиториев — и попросили прочитать. Не запомнить наизусть, а именно прочитать и уловить паттерны: как устроены предложения, какие факты с чем связаны, что за чем обычно следует.

Именно это и делает модель на этапе предобучения. Технически задача звучит до смешного просто: предсказать следующий токен. Дана последовательность слов — угадай, что идёт дальше. Показали «Земля вращается вокруг» — модель должна угадать «Солнца».

Почему это работает? Потому что хорошо предсказывать следующее слово невозможно без понимания грамматики, фактов, логики и контекста. Нельзя угадать «Солнца», не зная астрономии. Нельзя продолжить юридический текст, не уловив его структуру. Модель, которая научилась делать это на триллионах примеров, волей-неволей «усвоила» колоссальный пласт знаний о мире — просто потому, что иначе задачу не решить.

Масштаб поражает. GPT-4 обучался на текстах объёмом порядка 13 триллионов токенов. Стоимость одного такого обучения — десятки миллионов долларов. Время — месяцы непрерывной работы на тысячах видеокарт, работающих параллельно. Это не то, что можно воспроизвести дома даже на очень хорошем железе.

На выходе получается так называемая базовая модель — невероятно начитанный, но совершенно неудобный собеседник. Спроси её «как дела?» — она продолжит текст в духе форума 2007 года или медицинской энциклопедии, в зависимости от того, что чаще встречалось рядом с похожими фразами. Никакого диалога, никакой вежливости, никакого понимания того, что ты ждёшь ответа, а не продолжения текста. Просто предсказание следующего токена — честно и без прикрас.

Этап второй: файн-тюнинг — учим разговаривать

Базовая модель знает всё, но не умеет ничего полезного в привычном смысле. Следующий шаг — показать ей, как именно должен выглядеть хороший ответ на конкретный вопрос конкретного человека.

Для этого нанимают людей-разметчиков. Они пишут тысячи пар «вопрос — образцовый ответ». Иногда это делают сами исследователи, иногда — специально обученные аннотаторы со строгими инструкциями по качеству. Датасет получается небольшим по меркам предобучения — несколько десятков тысяч примеров — но тщательно отобранным и проверенным.

Этот процесс называется Supervised Fine-Tuning (SFT), или Instruction Tuning. Модель снова учится — но теперь не на всём подряд, а конкретно на примерах правильного поведения ^[2] ассистента. После этого она уже понимает формат диалога: есть вопрос пользователя, есть её ответ, нужно отвечать по существу, структурированно и по делу.

Но и этого недостаточно. Разметчики могут написать «хорошие» ответы, но у каждого своё представление о том, что хорошо. Одному важна краткость, другому — полнота и примеры, третьему — осторожность в формулировках. Как собрать всё это воедино и получить модель, которая стабильно нравится людям? Вот тут начинается самое интересное.

Этап третий: RLHF — добавляем характер

RLHF расшифровывается как Reinforcement Learning from Human Feedback — обучение с подкреплением ^[3] на основе человеческой обратной связи. Звучит сложно, но идея элегантна.

Шаг 3.1 — обучение модели-судьи. Разметчикам показывают не один ответ, а два варианта на один и тот же вопрос, и просят выбрать лучший. «Какой из этих двух ответов полезнее? Точнее? Безопаснее?» Из тысяч таких сравнений обучается отдельная нейросеть — Reward Model. Она учится предсказывать, какой ответ человек предпочтёт, и по сути становится автоматическим судьёй качества.

Шаг 3.2 — оптимизация основной модели. Теперь основная модель генерирует ответы, reward model оценивает их и выставляет «очки». Алгоритм PPO (Proximal Policy Optimization) постепенно подталкивает основную модель в сторону ответов с высокими оценками — итерация за итерацией.

Это и есть RLHF. Именно он делает модель вежливой, осторожной, склонной к структурированным и взвешенным ответам. Именно он объясняет, почему ChatGPT отвечает совсем иначе, чем просто «базовый GPT» — у неё сформирован характер через обратную связь на миллионах примеров человеческих предпочтений.

Существует и более простая современная альтернатива — DPO (Direct Preference Optimization). Вместо отдельной reward model и сложного цикла RL, DPO напрямую обучает модель на парах «хороший ответ / плохой ответ». Математически ^[4] строже, дешевле в реализации — и поэтому сейчас активно вытесняет классический RLHF во многих лабораториях.

Читать про этапы обучения — одно. Наблюдать, как по-разному обученные модели подходят к одной задаче — совсем другое.

Для этого удобно использовать вот этот Telegram-бот ^[5] — внутри собраны топовые ИИ-модели, бесплатно. Можно переключаться между ними прямо в чате, выбирать режим рассуждения и настраивать бота под свою задачу.

Дай одинаковый запрос разным моделям и посмотри на разницу — она хорошо отражает то, о чём мы говорили выше.

Что изменилось за последние два года

Три этапа выше — классика, проверенная временем. Но поле быстро движется, и стоит знать о нескольких важных трендах, которые меняют то, как модели обучаются прямо сейчас.

Mixture of Experts (MoE). Вместо одной монолитной большой сети — много специализированных «экспертов», из которых для каждого конкретного токена активируется только часть. Результат: модель с параметрами как у большой, но вычислительно значительно дешевле. Так устроены Mixtral и, по слухам, GPT-4. Это позволяет масштабировать модели без пропорционального роста стоимости инференса.

Синтетические данные. Реального качественного текста начинает не хватать — интернет конечен, хорошие книги уже прочитаны. Решение — генерировать обучающие данные с помощью самих же моделей. Звучит как замкнутый круг, но при правильном подходе работает: сильная модель создаёт задачи и эталонные решения, на которых обучается следующая, более сильная версия.

Test-time compute. Вместо того чтобы просто делать модель больше, ей дают больше времени на обдумывание ответа прямо во время генерации. o1, o3, DeepSeek-R1 — все они в момент ответа «думают» длинными цепочками внутренних рассуждений, прежде чем выдать финальный текст. Это смена парадигмы: раньше качество определялось исключительно размером модели, теперь — ещё и вычислениями в момент инференса.

RLAIF — ИИ вместо разметчиков. Дорогих людей-аннотаторов всё чаще заменяют другой моделью. Constitutional AI от Anthropic — один из ярких примеров: модель оценивает свои же ответы по набору заранее прописанных принципов и сама себя итеративно корректирует, без участия человека на каждом шаге.

Итог: три этапа — три разные задачи

Предобучение даёт знания — модель читает мир и сжимает его в миллиарды весов.

Файн-тюнинг даёт формат — модель учится быть ассистентом, а не просто генератором текста.

RLHF даёт характер — модель учится нравиться людям и вести себя согласно их ожиданиям.

Убери любой из этих этапов — и модель либо ничего не знает, либо не умеет разговаривать, либо будет груба, непоследовательна и непредсказуема. Именно в этой трёхслойной связке и рождается то, что мы привыкли называть «умным ИИ» — не магия, а инженерия, выстроенная шаг за шагом.

Автор: Lordneo

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31386

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] поведения: http://www.braintools.ru/article/9372

[3] подкреплением: http://www.braintools.ru/article/5528

[4] Математически: http://www.braintools.ru/article/7620

[5] вот этот Telegram-бот: https://t.me/ChatGPTAIAssistantBot

[6] Источник: https://habr.com/ru/articles/1044558/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044558

Нажмите здесь для печати.