lora.

Дообучаем FLUX.2 [klein] за час на одной видеокарте: LoRA, Diffusers и Gradio без лишней боли

FLUX.2 достаточно компактна, чтобы дообучать её на одной потребительской видеокарте. Прогон обучения LoRA для 4B-модели укладывается в 24 ГБ VRAM, занимает около часа на RTX 4090 и стоит примерно $0.50, если арендовать GPU. В этом гайде пройдём весь цикл: соберём датасет, настроим тренер, запустим обучение, загрузим результат в diffusers и завернём всё в Gradio-приложение, которое можно выложить как Hugging Face Space.К концу у вас будет LoRA в формате .safetensors

продолжить чтение

Finetune Lora Qwen3vl и прочие приключения

У меня была видеокарта NVIDIA A100 с максимальным объёмом памяти 79,254 Гб. Нужно было извлечь ключевую информацию (задача Question Answering) из 6 тыс. многостраничных документов. Всего было 15 полей разного типа:

продолжить чтение

Как дообучить LLM. Рассказываю шаг за шагом

Всем привет, меня зовут Максимов Максим. Я Team Lead в R&D-лаборатории компании red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Сегодня мы погрузимся в тему дообучения больших языковых моделей (LLM). Вначале я дам небольшую вводную, а далее на практике разберём, как дообучить LLM извлекать информацию из текста в формате JSON по заданной схеме. ВведениеОписание экспериментаХод экспериментаПоехали!Введение

продолжить чтение

AI-компаньон в проде на третьем месяце — 5 архитектурных решений и инфра-тюнинг

Каждый, кто пробовал собрать AI-чат по типовой схеме — chat-completions API, OpenAI Memory, один эндпоинт Stable Diffusion — рано или поздно упирается в одни и те же стены. Бот забывает разговор через десять реплик. Иногда сервер бодро отвечает HTTP 200, как будто всё в порядке, а внутри — пустая строка: ни ошибки, ни таймаута, модель просто отказалась говорить и сделала это молча. Один и тот же текстовый запрос рисует двух разных персонажей. А одеть нарисованного персонажа в конкретное платье из каталога не получается вообще.

продолжить чтение

Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

У нас есть открытый бенчмарк https://github.com/csylabs-org/lii-sport-bench-ru для оценки русскоязычных LLM на спортивном домене — ЛИИ-Спорт-Bench-RU, 655 экспертных вопросов по 35 видам спорта. В прошлой статье мы выбрали базовую модель: Gemma 4 31B. После этого начался главный вопрос — как сделать её лучше под домен.Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда базовая версия выиграла.

продолжить чтение

Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и

продолжить чтение

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров.

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM.Часть 3.Дистилляция

С чего всё началось

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 2. Обучение

Продолжаем серию про файнтюнинг и создание DevOps‑агента Oni. В прошлой части

продолжить чтение

75 картинок ablation: как Reddit-критика заставила меня переосмыслить FLUX-LoRA пайплайн

TL;DR. Запустил pinock.io — бесплатную ленту AI-генерации животных в стиле советских спичечных коробков. Под капотом FLUX.2-klein + кастомная LoRA + двухпроходный «sandwich»-пайплайн. Получил детальный технический комментарий на r/StableDiffusion с двумя конкретными претензиями. Прогнал ablation: 5 вариантов × 5 категорий × 3 сида = 75 картинок. Нашёл дыры в собственном пайплайне — в том числе кириллицу в выходе LoRA (training-set leakage) и полный коллапс LoRA при scale=2.0

продолжить чтение