Рождение LLM: история, которую мало кто знает. deep learning.. deep learning. Google Brain.. deep learning. Google Brain. llm.. deep learning. Google Brain. llm. openai.. deep learning. Google Brain. llm. openai. большие языковые модели.. deep learning. Google Brain. llm. openai. большие языковые модели. искусственный интеллект.. deep learning. Google Brain. llm. openai. большие языковые модели. искусственный интеллект. история ии.. deep learning. Google Brain. llm. openai. большие языковые модели. искусственный интеллект. история ии. история машинного обучения.. deep learning. Google Brain. llm. openai. большие языковые модели. искусственный интеллект. история ии. история машинного обучения. Машинное обучение.. deep learning. Google Brain. llm. openai. большие языковые модели. искусственный интеллект. история ии. история машинного обучения. Машинное обучение. научно-популярное.. deep learning. Google Brain. llm. openai. большие языковые модели. искусственный интеллект. история ии. история машинного обучения. Машинное обучение. научно-популярное. нейронные сети.

Когда люди слышат “языковая модель”, у большинства сразу всплывает ChatGPT, Gemini, ну или на худой конец что-то связанное с Яндексом. Но мало кто задумывается – а с чего вообще всё началось? Кто первым решил, что машина может понимать текст не по шаблону, а по-настоящему?

Я попробую рассказать эту историю без лишнего академизма – просто, но честно.

До нейросетей была статистика

Конец 1980-х. Никаких тебе трансформеров, никакого обучения с подкреплением. Тогда языковые модели строились на банальной статистике – модель просто смотрела, какое слово чаще всего следует за предыдущим. Это называлось n-граммными моделями.

Работало это примерно так: если ты написал “Я хочу есть”, модель по статистике предсказывала следующее слово – “пиццу”, “суши”, “борщ” – в зависимости от того, на каких текстах её обучили. Грубо, примитивно, но это был первый реальный шаг.

Проблема была очевидной – такие модели не понимали контекст дальше двух-трёх слов. Предложение из десяти слов для них уже было тёмным лесом. Плюс они жрали огромное количество памяти: чтобы хранить статистику для всех возможных троек слов в большом корпусе текстов, нужны были гигабайты – по тем временам это было реально больно.

IBM и первые попытки сделать что-то умнее

В начале 90-х в IBM Research работала группа людей, которые всерьёз занялись машинным переводом. Они создали модели под названием IBM Model 1-5 – и это был уже другой уровень. Модели учились находить соответствия между словами в разных языках, опираясь на большие корпуса параллельных текстов.

Параллельно в AT&T Bell Labs Ян Лекун со своей командой возился с нейронными сетями. Тогда это выглядело как академическая экзотика, на которую никто особо не ставил. Финансирование резали, скептики говорили что это тупик. Период с конца 80-х по середину 90-х в ML-сообществе вообще называют “зимой ИИ” – интерес и деньги ушли, большинство исследователей переключились на другие задачи.

Но именно эти два направления – статистика и нейросети – в итоге и слились в то, что мы сегодня называем LLM.

2003 год – момент, который все пропустили

В 2003 году Йошуа Бенджио с коллегами опубликовал работу “A Neural Probabilistic Language Model”. Это была та самая точка, после которой всё начало меняться.

Они предложили не просто считать частоту слов, а обучать нейросеть предсказывать слово по контексту. Причём каждое слово превращалось в вектор – числовое представление в многомерном пространстве. Слова с похожим смыслом оказывались “рядом” в этом пространстве.

Тогда это называлось word embeddings – и именно отсюда растут ноги у всего современного NLP.

Статью прочитали немногие. Никакого хайпа не было. Просто тихая, важная работа. На конференции NeurIPS того года её встретили вежливым интересом – не более. Бенджио потом говорил, что они сами не до конца понимали, что сделали.

Word2Vec – когда мир начал замечать

2013 год. Команда Google во главе с Томасом Миколовым выпускает Word2Vec – и вот тут уже народ начинает реально удивляться.

Модель умела делать вещи, от которых у людей ехала крыша:

“король” – “мужчина” + “женщина” = “королева”

Не потому что кто-то это запрограммировал. Модель сама вывела эту логику из текстов. Причём это работало для десятков таких аналогий – страны и столицы, профессии и инструменты, глаголы и их формы. Модель захватила структуру языка просто через предсказание соседних слов.

Это был момент, когда стало понятно – что-то в этом направлении реально работает. Именно тогда в сторону NLP начали смотреть большие компании с большими бюджетами.

ELMo и контекст, которого так не хватало

2018 год, чуть раньше GPT. Команда AllenNLP выпускает ELMo – и решает проблему, которую Word2Vec так и не смог закрыть.

В Word2Vec слово “ключ” всегда имело один вектор – неважно, речь про ключ от квартиры или ключ в музыке. ELMo впервые сделал так, чтобы представление слова зависело от контекста, в котором оно стоит. Это звучит как мелочь, но на практике это был огромный скачок в качестве.

Модель читала предложение в обоих направлениях – слева направо и справа налево – и собирала контекст с обеих сторон. Отсюда и название: ELMo – Embeddings from Language Models.

Трансформер – тот самый перелом

2017 год. Google Brain публикует статью “Attention Is All You Need”. Именно здесь рождается архитектура трансформера – основа всех современных LLM.

До этого нейросети читали текст последовательно – слово за словом. Трансформер отказался от этой идеи. Он смотрит на весь текст сразу и учится понимать, какие слова связаны друг с другом по смыслу – независимо от того, насколько далеко они стоят в предложении.

Механизм назвали “attention” – внимание. Модель буквально учится “обращать внимание” на нужные части текста. Грубо говоря: читая слово “он” в конце длинного абзаца, модель понимает, что “он” – это конкретный человек, упомянутый десять предложений назад.

Плюс трансформер считается параллельно – в отличие от рекуррентных сетей, которые были до него. Это значит, что его можно эффективно обучать на GPU. Именно это открыло дорогу к масштабированию.

И вот тут всё понеслось.

GPT-1 – первая настоящая LLM

2018 год. OpenAI выпускает GPT-1 – Generative Pre-trained Transformer. 117 миллионов параметров. Обучена на книгах из открытого интернета.

По современным меркам – смешной размер. Но по тем временам это был прорыв. Модель умела генерировать связный текст, отвечать на вопросы и переключаться между задачами без отдельного обучения под каждую. Это называлось “few-shot learning” – ты просто давал модели пару примеров прямо в запросе, и она понимала, что от неё хотят.

GPT-2 в 2019-м OpenAI поначалу отказались публиковать полностью – сказали, что модель “слишком опасна”. Сейчас это выглядит смешно, но тогда 1.5 миллиарда параметров казались чем-то запредельным. GPT-3 в 2020-м – уже 175 миллиардов. А дальше – всем известный ChatGPT в конце 2022 года и то, что последовало за ним.

Но корни – вот здесь, в этой цепочке от статистики 80-х до трансформера 2017 года.

Сейчас LLM уже не просто генерируют текст. Они встроены в рабочие инструменты, приложения, голосовые помощники. Модели читают картинки, слушают голос, пишут код. Порог входа для обычного пользователя упал до нуля.

Если хочешь попробовать несколько топовых моделей в одном месте – есть бесплатный Telegram-бот, который я использую сам. Там собраны лучшие модели, без ограничений на количество сообщений и без подписок. Можно переключаться между режимами Fast и Thinking – смотря какая задача. Настроить скиллы, выбрать роль для бота. Он распознаёт текст с фото, описывает изображения, решает задания по картинке, транскрибирует голосовые в текст – и сам принимает голосовые промпты. Всё в одном месте.

Вместо вывода

История LLM – это не история одного гения и одного открытия. Это лет сорок тихой работы десятков команд, которые делали своё дело, пока никто не смотрел. Статистики, лингвисты, математики, инженеры – все они по чуть-чуть складывали этот пазл.

Бенджио, Хинтон и Лекун в 2018-м получили премию Тьюринга – что-то вроде нобелевки в компьютерных науках. Журналисты тогда написали про это пару строчек и забыли. А через четыре года весь мир узнал, что такое ChatGPT.

В какой-то момент пазл сложился. Теперь мы все пользуемся результатом – зачастую даже не задумываясь, откуда это всё взялось.

Автор: Lordneo

Источник