- BrainTools - https://www.braintools.ru -
Ты уже пользуешься языковыми моделями — спрашиваешь, генерируешь, отлаживаешь код. Но откуда берётся сама способность отвечать? Не «где хранятся данные», а именно — как из случайно инициализированной матрицы чисел вырастает нечто, способное объяснить теорему Гёделя, написать резюме или найти баг в чужом коде?
Ответ не в магии и не в «огромной базе данных». Под капотом — три последовательных этапа обучения [1]. Каждый решает строго свою задачу, и без предыдущего следующий просто невозможен. Разберём каждый по очереди.
Представь, что тебе дали всю Википедию, половину интернета, миллионы книг и кодовых репозиториев — и попросили прочитать. Не запомнить наизусть, а именно прочитать и уловить паттерны: как устроены предложения, какие факты с чем связаны, что за чем обычно следует.
Именно это и делает модель на этапе предобучения. Технически задача звучит до смешного просто: предсказать следующий токен. Дана последовательность слов — угадай, что идёт дальше. Показали «Земля вращается вокруг» — модель должна угадать «Солнца».
Почему это работает? Потому что хорошо предсказывать следующее слово невозможно без понимания грамматики, фактов, логики и контекста. Нельзя угадать «Солнца», не зная астрономии. Нельзя продолжить юридический текст, не уловив его структуру. Модель, которая научилась делать это на триллионах примеров, волей-неволей «усвоила» колоссальный пласт знаний о мире — просто потому, что иначе задачу не решить.
Масштаб поражает. GPT-4 обучался на текстах объёмом порядка 13 триллионов токенов. Стоимость одного такого обучения — десятки миллионов долларов. Время — месяцы непрерывной работы на тысячах видеокарт, работающих параллельно. Это не то, что можно воспроизвести дома даже на очень хорошем железе.
На выходе получается так называемая базовая модель — невероятно начитанный, но совершенно неудобный собеседник. Спроси её «как дела?» — она продолжит текст в духе форума 2007 года или медицинской энциклопедии, в зависимости от того, что чаще встречалось рядом с похожими фразами. Никакого диалога, никакой вежливости, никакого понимания того, что ты ждёшь ответа, а не продолжения текста. Просто предсказание следующего токена — честно и без прикрас.
Базовая модель знает всё, но не умеет ничего полезного в привычном смысле. Следующий шаг — показать ей, как именно должен выглядеть хороший ответ на конкретный вопрос конкретного человека.
Для этого нанимают людей-разметчиков. Они пишут тысячи пар «вопрос — образцовый ответ». Иногда это делают сами исследователи, иногда — специально обученные аннотаторы со строгими инструкциями по качеству. Датасет получается небольшим по меркам предобучения — несколько десятков тысяч примеров — но тщательно отобранным и проверенным.
Этот процесс называется Supervised Fine-Tuning (SFT), или Instruction Tuning. Модель снова учится — но теперь не на всём подряд, а конкретно на примерах правильного поведения [2] ассистента. После этого она уже понимает формат диалога: есть вопрос пользователя, есть её ответ, нужно отвечать по существу, структурированно и по делу.
Но и этого недостаточно. Разметчики могут написать «хорошие» ответы, но у каждого своё представление о том, что хорошо. Одному важна краткость, другому — полнота и примеры, третьему — осторожность в формулировках. Как собрать всё это воедино и получить модель, которая стабильно нравится людям? Вот тут начинается самое интересное.
RLHF расшифровывается как Reinforcement Learning from Human Feedback — обучение с подкреплением [3] на основе человеческой обратной связи. Звучит сложно, но идея элегантна.
Шаг 3.1 — обучение модели-судьи. Разметчикам показывают не один ответ, а два варианта на один и тот же вопрос, и просят выбрать лучший. «Какой из этих двух ответов полезнее? Точнее? Безопаснее?» Из тысяч таких сравнений обучается отдельная нейросеть — Reward Model. Она учится предсказывать, какой ответ человек предпочтёт, и по сути становится автоматическим судьёй качества.
Шаг 3.2 — оптимизация основной модели. Теперь основная модель генерирует ответы, reward model оценивает их и выставляет «очки». Алгоритм PPO (Proximal Policy Optimization) постепенно подталкивает основную модель в сторону ответов с высокими оценками — итерация за итерацией.
Это и есть RLHF. Именно он делает модель вежливой, осторожной, склонной к структурированным и взвешенным ответам. Именно он объясняет, почему ChatGPT отвечает совсем иначе, чем просто «базовый GPT» — у неё сформирован характер через обратную связь на миллионах примеров человеческих предпочтений.
Существует и более простая современная альтернатива — DPO (Direct Preference Optimization). Вместо отдельной reward model и сложного цикла RL, DPO напрямую обучает модель на парах «хороший ответ / плохой ответ». Математически [4] строже, дешевле в реализации — и поэтому сейчас активно вытесняет классический RLHF во многих лабораториях.
Читать про этапы обучения — одно. Наблюдать, как по-разному обученные модели подходят к одной задаче — совсем другое.
Для этого удобно использовать вот этот Telegram-бот [5] — внутри собраны топовые ИИ-модели, бесплатно. Можно переключаться между ними прямо в чате, выбирать режим рассуждения и настраивать бота под свою задачу.
Дай одинаковый запрос разным моделям и посмотри на разницу — она хорошо отражает то, о чём мы говорили выше.
Три этапа выше — классика, проверенная временем. Но поле быстро движется, и стоит знать о нескольких важных трендах, которые меняют то, как модели обучаются прямо сейчас.
Mixture of Experts (MoE). Вместо одной монолитной большой сети — много специализированных «экспертов», из которых для каждого конкретного токена активируется только часть. Результат: модель с параметрами как у большой, но вычислительно значительно дешевле. Так устроены Mixtral и, по слухам, GPT-4. Это позволяет масштабировать модели без пропорционального роста стоимости инференса.
Синтетические данные. Реального качественного текста начинает не хватать — интернет конечен, хорошие книги уже прочитаны. Решение — генерировать обучающие данные с помощью самих же моделей. Звучит как замкнутый круг, но при правильном подходе работает: сильная модель создаёт задачи и эталонные решения, на которых обучается следующая, более сильная версия.
Test-time compute. Вместо того чтобы просто делать модель больше, ей дают больше времени на обдумывание ответа прямо во время генерации. o1, o3, DeepSeek-R1 — все они в момент ответа «думают» длинными цепочками внутренних рассуждений, прежде чем выдать финальный текст. Это смена парадигмы: раньше качество определялось исключительно размером модели, теперь — ещё и вычислениями в момент инференса.
RLAIF — ИИ вместо разметчиков. Дорогих людей-аннотаторов всё чаще заменяют другой моделью. Constitutional AI от Anthropic — один из ярких примеров: модель оценивает свои же ответы по набору заранее прописанных принципов и сама себя итеративно корректирует, без участия человека на каждом шаге.
Предобучение даёт знания — модель читает мир и сжимает его в миллиарды весов.
Файн-тюнинг даёт формат — модель учится быть ассистентом, а не просто генератором текста.
RLHF даёт характер — модель учится нравиться людям и вести себя согласно их ожиданиям.
Убери любой из этих этапов — и модель либо ничего не знает, либо не умеет разговаривать, либо будет груба, непоследовательна и непредсказуема. Именно в этой трёхслойной связке и рождается то, что мы привыкли называть «умным ИИ» — не магия, а инженерия, выстроенная шаг за шагом.
Автор: Lordneo
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/31386
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] поведения: http://www.braintools.ru/article/9372
[3] подкреплением: http://www.braintools.ru/article/5528
[4] Математически: http://www.braintools.ru/article/7620
[5] вот этот Telegram-бот: https://t.me/ChatGPTAIAssistantBot
[6] Источник: https://habr.com/ru/articles/1044558/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044558
Нажмите здесь для печати.