Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA
Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров.
Как дообучать локальные LLM в 2026 году: практическое руководство
В 2026 году возможность дообучения локальных LLM стала реальной опцией для отдельных разработчиков и небольших команд. Это стало возможным благодаря снижению требований к видеопамяти (VRAM), развитию инструментов и расширению набора базовых моделей с открытыми лицензиями.
Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей
Продолжение. В первой статье мы протестировали 30 нейросетей на задачах для российских учителей. Российские модели заняли последние места. Но строчка #9 — наша: дообученная модель за ~30 000₽, которая работает локально. Вот как мы её сделали.Зачем вообще дообучатьВ комментариях к первой статье справедливо спросили — почему российские модели плохи? GigaChat-2 Max набрал 2.39 из 4, YandexGPT 5.1 Pro — 2.51. Ответ простой: в обучающей выборке этих моделей мало российских школьных задач, они оптимизированы под чат, не под образовательную деятельность.
Эксперимент по подстройке Gemma 3 для вызова процедур
Мне стало интересно, сколько это займет по времени и какие ресурсы потребует. Модель мультимодальная и довольно большая. Подстройка выполняется только в текстовой части.Далее термины “подстройка” или “тюнинг” взаимозаменяемы. Транслитерированные из английского термины плохо образуют формы слова. Возьмем задачу для примера. Пусть есть агент на базе Gemma-3-4b-it, и нам нужно сделать так, чтобы модель выдавала вызов процедуры, если во входном промте имеется смысл обращения к конфиденциальному функционалу агента, например - активен ли мой доступ, какие последние транзакции и т.п. Полный
QTune — open-source решение для быстрого файн-тюнинга моделей
Сегодня я хочу рассказать о своем проекте QTune. Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый процесс, доступный каждому. Это не просто набор скриптов, а полноценная студия, охватывающая весь цикл: от создания датасета до запуска готовой модели локально.Философия простоты: от идеи до модели без единой строчки кодаГлавная идея QTune - предоставить полный контроль над процессом в рамках единого, интуитивно понятного интерфейса. Весь процесс разбит на логические этапы, представленные в виде вкладок в приложении.

