Разработка LLM с нуля. Новые модели

Крупное обновление в моем курсе Разработка LLM с нуля ^[1].

Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания ^[2] и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

Теперь, помимо GPT-1, нам предстоит реализовать кучу новых LLM:

GPT-2
Llama
Mistral
Mixtral
Gemma

В процессе их разработки мы изучим новые архитектурные фишки:

Pre-norm, RMSNorm — новые способы нормализации
GELU, SiLU, SwiGLU, GeGLU — новые функции активации
KV-cache, SWA — механизмы, позволяющие оптимизировать инференс
RoPE — новый способ кодирования позиционных эмбедингов
GQA, MQA — новые экономичные механизмы внимания
MoE — новая экономичная архитектура для FNN

Курс платный. Следующие две недели по промокоду TRIO ^[3] предоставляется скидка 30%.

Мои курсы: Разработка LLM с нуля ^[1] | Алгоритмы Машинного обучения с нуля ^[4]

Автор: slivka_83

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20067

URLs in this post:

[1] Разработка LLM с нуля: https://stepik.org/a/231306

[2] внимания: http://www.braintools.ru/article/7595

[3] TRIO: https://stepik.org/a/231306/pay?promo=25c5f4aec7ff12e6

[4] Алгоритмы Машинного обучения с нуля: https://stepik.org/a/68260/pay?promo=b997c468b105096d

[5] Источник: https://habr.com/ru/articles/951426/?utm_source=habrahabr&utm_medium=rss&utm_campaign=951426

Нажмите здесь для печати.