оптимизация моделей.

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров.

продолжить чтение

Оставлено в

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

Привет, Хабр! Меня зовут Владимир Никулин, я технический лидер команды продуктивизации нейросетевых решений в MWS AI. Мы развиваем платформу синтеза и распознавания речи Audiogram, которая, в свою очередь, является частью еще более масштабной платформы для создания ИИ-агентов — MWS AI Agents Platform.Часто нашим заказчикам нужно компактное коробочное решение, которое можно запустить на CPU при отсутствии GPU или для простой экономии ресурсов. В этом материале по следам своего же доклада на AiConf на примере нашего модуля автоматического распознавания речи (Automatic Speech Recognition или кратко — ASR) я расскажу:

продолжить чтение

Оставлено в

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Привет, Хабр!Этой осенью Google порадовали нас релизом AlphaEvolve — фреймворка, который комбинирует способности LLM к написанию кода с эволюционным подходом к вычислению. Новый метод доказал свою эффективность на сложных алгоритмических или математических задачах, но, как это часто бывает у таких компаний, технические детали AlphaEvolve остаются коммерческой тайной. Тогда мы в AIRI решили создать свой фреймворк.

продолжить чтение

Оставлено в

Triton FP8: реализация и автотюнинг GEMM-Attention под RTX 40xx-Blackwell

Привет, Хабр! Я тут на досуге решил разобраться с 8-битными числами с плавающей запятой (FP8) и попробовать написать под них свои GPU‑ядра на Triton

продолжить чтение

Оставлено в

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.ВведениеСовременные object detection-модели достаточно мощные, чтобы «из коробки» выдавать приемлемую точность. Особенно если задача выглядит простой — например, определить, где на покерном столе лежат карты.Но «приемлемо» и «надёжно» — не одно и то же.В одном из проектов заказчик обучил модель, которая показывала 93% точности на валидной выборке, но на практике её приходилось постоянно подчищать вручную. Модель теряла карты в нужных моментах, срабатывала на графику трансляции и мешала, а не помогала аналитике.

продолжить чтение

Оставлено в

Квантизация

Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

оптимизация моделей.

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Triton FP8: реализация и автотюнинг GEMM-Attention под RTX 40xx-Blackwell

Когда YOLO не спасает: как один параметр может испортить всё

Квантизация

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

оптимизация моделей.

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

GigaEvo — эволюционный фреймворк для автоматизации ML и LLM-ориентированных задач

Triton FP8: реализация и автотюнинг GEMM-Attention под RTX 40xx-Blackwell

Когда YOLO не спасает: как один параметр может испортить всё

Квантизация