distillation.

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

На прошлой неделе NVIDIA выложила отчёт про QAD и я его проигнорировал. Потому что каждый месяц кто-то "решает квантизацию" и каждый раз на практике всё не так радужно.Но потом коллега скинул табличку с AIME и я залип.Контекст такой. У нас на проде крутится модель на FP8, всё более-менее ок, но менеджмент хочет запихнуть 49B модель туда, где сейчас живёт 20B. Потому что "ну там же Blackwell, там же FP4, давайте". Я месяц назад попробовал наивно квантизовать в 4 бита — модель начала нести пургу на математике. Не сильно, но заметно. Закрыл тему, сказал что FP4 не готов.И тут этот отчёт.Что вообще происходит

продолжить чтение

Оставлено в

AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning

Привет хабр! Я хочу поделиться своими наблюдениями и размышлениями на тему работы сеток-дуэтов в современных архитектурах нейросетей.Возьму как пример 3 подхода :Архитектура GAN, основанная на состязательности нейросетейАрхитектура Knowledge Distillation, основанная на совместном обучении и дистилляции Архитектура Reinforcement learning, основанная на последовательной или разделенной обработке 1. GAN - Генеративно - состязательные сети.

продолжить чтение

Оставлено в

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

tl;dr. Мы изучаем сублиминальное обучение

продолжить чтение

Оставлено в

Академия OpenAI для разработчиков: Разбор 10 лекций про API, RAG, Fine-tuning

OpenAI запустила свою Академию — десятки видеолекций. Полезно, но много. Если вы разработчик или аналитик, которому нужны технические детали и практические руководства по API, моделям и их оптимизации, смотреть всё подряд — не вариант.Я изучил доступные материалы и сделал выжим из только технических материалов. Этот гайд проведет по 10 ключевым лекциям вышедшим на сегодня, которые помогут разобраться в Function Calling, RAG, Fine-tuning, Evals и других важных темах. Мы не будем здесь касаться

продолжить чтение

Оставлено в

Поднимаем DeepSeek llm локально

Все уже слышали про новую модель DeepSeek r1, которая обогнала по бенчмаркам openai. Компания DeepSeek выложила веса и дистилляты в открытый доступ, поэтому мы можем их запустить.В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.Что имеем?Основная модель, о которой говорят, DeepSeek r1 - 671b Mixture of Experts (37B активаций на forward). Целиком пытаться инференсить такую модель очень затратно.Если очень хочется r1, но не полную - есть квантизации от unsloth.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

distillation.

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

Академия OpenAI для разработчиков: Разбор 10 лекций про API, RAG, Fine-tuning

Поднимаем DeepSeek llm локально

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

distillation.

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning

Скрытая угроза: как LLM заражают друг друга предубеждениями через «безобидные» данные

Академия OpenAI для разработчиков: Разбор 10 лекций про API, RAG, Fine-tuning

Поднимаем DeepSeek llm локально