Развёртывание ML-моделей в картинках
Всем привет! Меня зовут Алина. Ранее я вам рассказывала про то, как можно спроектировать Feature Platform. Сегодня речь пойдёт об очень важном компоненте ML-платформы — о развёртывании ML-моделей, а также о связанных с ним компонентах.Если во время обучения модель живёт в ноутбуках и экспериментальных средах и может работать как угодно, то в эксплуатации она должна работать быстро, стабильно и предсказуемо. Давайте разберёмся, как правильно вывести модель в «боевой режим». И начнём с анализа процесса.Как выглядит процесс развёртывания
Поднимаем DeepSeek llm локально
Все уже слышали про новую модель DeepSeek r1, которая обогнала по бенчмаркам openai. Компания DeepSeek выложила веса и дистилляты в открытый доступ, поэтому мы можем их запустить.В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.Что имеем?Основная модель, о которой говорят, DeepSeek r1 - 671b Mixture of Experts (37B активаций на forward). Целиком пытаться инференсить такую модель очень затратно.Если очень хочется r1, но не полную - есть квантизации от unsloth.

