оптимизация моделей.

Triton FP8: реализация и автотюнинг GEMM-Attention под RTX 40xx-Blackwell

Привет, Хабр! Я тут на досуге решил разобраться с 8-битными числами с плавающей запятой (FP8) и попробовать написать под них свои GPU‑ядра на Triton

продолжить чтение

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.ВведениеСовременные object detection-модели достаточно мощные, чтобы «из коробки» выдавать приемлемую точность. Особенно если задача выглядит простой — например, определить, где на покерном столе лежат карты.Но «приемлемо» и «надёжно» — не одно и то же.В одном из проектов заказчик обучил модель, которая показывала 93% точности на валидной выборке, но на практике её приходилось постоянно подчищать вручную. Модель теряла карты в нужных моментах, срабатывала на графику трансляции и мешала, а не помогала аналитике.

продолжить чтение

Квантизация

Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики

продолжить чтение

Rambler's Top100