- BrainTools - https://www.braintools.ru -

Разработка LLM с нуля. Новые модели

Разработка LLM с нуля. Новые модели - 1

Крупное обновление в моем курсе Разработка LLM с нуля [1].

Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания [2] и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

Теперь, помимо GPT-1, нам предстоит реализовать кучу новых LLM:

  • GPT-2

  • Llama

  • Mistral

  • Mixtral

  • Gemma

В процессе их разработки мы изучим новые архитектурные фишки:

  • Pre-norm, RMSNorm — новые способы нормализации

  • GELU, SiLU, SwiGLU, GeGLU — новые функции активации

  • KV-cache, SWA — механизмы, позволяющие оптимизировать инференс

  • RoPE — новый способ кодирования позиционных эмбедингов

  • GQA, MQA — новые экономичные механизмы внимания

  • MoE — новая экономичная архитектура для FNN

Курс платный. Следующие две недели по промокоду TRIO [3] предоставляется скидка 30%.

Разработка LLM с нуля. Новые модели - 2

Мои курсы: Разработка LLM с нуля [1] | Алгоритмы Машинного обучения с нуля [4]

Автор: slivka_83

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20067

URLs in this post:

[1] Разработка LLM с нуля: https://stepik.org/a/231306

[2] внимания: http://www.braintools.ru/article/7595

[3] TRIO: https://stepik.org/a/231306/pay?promo=25c5f4aec7ff12e6

[4] Алгоритмы Машинного обучения с нуля: https://stepik.org/a/68260/pay?promo=b997c468b105096d

[5] Источник: https://habr.com/ru/articles/951426/?utm_source=habrahabr&utm_medium=rss&utm_campaign=951426

www.BrainTools.ru

Rambler's Top100