- BrainTools - https://www.braintools.ru -

Крупное обновление в моем курсе Разработка LLM с нуля [1].
Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания [2] и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.
Теперь, помимо GPT-1, нам предстоит реализовать кучу новых LLM:
GPT-2
Llama
Mistral
Mixtral
Gemma
В процессе их разработки мы изучим новые архитектурные фишки:
Pre-norm, RMSNorm — новые способы нормализации
GELU, SiLU, SwiGLU, GeGLU — новые функции активации
KV-cache, SWA — механизмы, позволяющие оптимизировать инференс
RoPE — новый способ кодирования позиционных эмбедингов
GQA, MQA — новые экономичные механизмы внимания
MoE — новая экономичная архитектура для FNN
Курс платный. Следующие две недели по промокоду TRIO [3] предоставляется скидка 30%.

Мои курсы: Разработка LLM с нуля [1] | Алгоритмы Машинного обучения с нуля [4]
Автор: slivka_83
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20067
URLs in this post:
[1] Разработка LLM с нуля: https://stepik.org/a/231306
[2] внимания: http://www.braintools.ru/article/7595
[3] TRIO: https://stepik.org/a/231306/pay?promo=25c5f4aec7ff12e6
[4] Алгоритмы Машинного обучения с нуля: https://stepik.org/a/68260/pay?promo=b997c468b105096d
[5] Источник: https://habr.com/ru/articles/951426/?utm_source=habrahabr&utm_medium=rss&utm_campaign=951426
Нажмите здесь для печати.