fine-tuning.

Finetune Lora Qwen3vl и прочие приключения

У меня была видеокарта NVIDIA A100 с максимальным объёмом памяти 79,254 Гб. Нужно было извлечь ключевую информацию (задача Question Answering) из 6 тыс. многостраничных документов. Всего было 15 полей разного типа:

продолжить чтение

За кулисами нейросетей: полный цикл тренировки языкового ИИ

Ты уже пользуешься языковыми моделями — спрашиваешь, генерируешь, отлаживаешь код. Но откуда берётся сама способность отвечать? Не «где хранятся данные», а именно — как из случайно инициализированной матрицы чисел вырастает нечто, способное объяснить теорему Гёделя, написать резюме или найти баг в чужом коде?Ответ не в магии и не в «огромной базе данных». Под капотом — три последовательных этапа обучения. Каждый решает строго свою задачу, и без предыдущего следующий просто невозможен. Разберём каждый по очереди.Этап первый: предобучение — строим фундамент

продолжить чтение

Как дообучить LLM. Рассказываю шаг за шагом

Всем привет, меня зовут Максимов Максим. Я Team Lead в R&D-лаборатории компании red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Сегодня мы погрузимся в тему дообучения больших языковых моделей (LLM). Вначале я дам небольшую вводную, а далее на практике разберём, как дообучить LLM извлекать информацию из текста в формате JSON по заданной схеме. ВведениеОписание экспериментаХод экспериментаПоехали!Введение

продолжить чтение

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM - главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS-фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен-записях и часть прошлых выводов здесь уточняем.Кандидата у нас по-прежнему два: SberDevices GigaAM v3-e2e-rnnt и OpenAI Whisper large-v3-turbo

продолжить чтение

Ожидание: сделать ИИ-примерочную обоев за 2 дня. Реальность: пришлось добучать свою модель на SD

В условиях жесткой конкуренции на рынке отделочных материалов любому магазину жизненно необходимо хоть какое-то осязаемое преимущество. Стандартными каталогами и скидками уже никого не удивить. Так у нас родилась идея: сделать онлайн-примерочную обоев. Кажется, звучит как киллер-фича — дать клиенту возможность до покупки увидеть, как конкретный паттерн будет смотреться в его реальном интерьере.

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM.Часть 3.Дистилляция

С чего всё началось

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 2. Обучение

Продолжаем серию про файнтюнинг и создание DevOps‑агента Oni. В прошлой части

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM

Я работаю по ИП, поэтому не только пишу код, но и поддерживаю как DevOps свои проекты у заказчика. Эта история началась банально: я собирался в отпуск и хотел оптимизировать часть процессов, которые в повседневной жизни занимают время — чтобы не дёргать клиентов из-за вопросов по ошибкам, которые я мог не увидеть во время отдыха. Пусть локальная моделька сама разгребает типовое. Думал: запущу OpenClaw, подключу к локальной модели — и поеду спокойно

продолжить чтение

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента

продолжить чтение

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Продолжение. В первой статье мы протестировали 30 нейросетей на задачах для российских учителей. Российские модели заняли последние места. Но строчка #9 — наша: дообученная модель за ~30 000₽, которая работает локально. Вот как мы её сделали.Зачем вообще дообучатьВ комментариях к первой статье справедливо спросили — почему российские модели плохи? GigaChat-2 Max набрал 2.39 из 4, YandexGPT 5.1 Pro — 2.51. Ответ простой: в обучающей выборке этих моделей мало российских школьных задач, они оптимизированы под чат, не под образовательную деятельность.

продолжить чтение