diffusion models.

Как мы ускоряли диффузионный декодер TTS

В пайплайне перевода видео в Яндекс Браузере скорость работы в синтезе речи долго оставалась узким местом: одно видео — это сотни фраз, каждая генерируется отдельно, и любая сэкономленная миллисекунда становится заметной в масштабах сервиса.

продолжить чтение

Оставлено в

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Введение: взгляд на атмосферу через объектив видеокамерыПривет, Хабр! Мы команда «Генеративный ИИ для видео» лаборатории FusionBrain AIRI — группа исследователей в области Generative AI. Наш основной профиль — модели генерации изображений и видео: пиксели, временная когерентность, латентные пространства, трансформеры и diffusion/flow‑подходы.Мы — не метеорологи. До этого проекта мы не держали в голове уравнения Навье — Стокса и путались в направлениях циклонов и антициклонов. Но однажды мы посмотрели на задачу глобального прогноза погоды под другим углом, и всё изменилось.Если предельно упростить,

продолжить чтение

Оставлено в

Simple diffusion – компактная модель генерации изображений

продолжить чтение

Оставлено в

Русский культурный код как оценка генеративных моделей

Привет! Когда вышла Nano Banana, я из любопытства попросил её нарисовать сюр на фоне советских панелек — и она нарисовала до безумия залипательную картинку. Она не просто нарисовала панельки, не просто идеально отработала промпт, она точно передала вайб и всю атмосферу.Так родилась идея этого мини-бенчмарка. Не академического, не на тысячи промптов и сотни метрик — а простого, народного и визуального. Чтобы посмотреть картинки рядом и все было сразу понятно: где Шурик взял шарму на ход ноги, а где доктор Ливси спотыкается об поребрик.

продолжить чтение

Оставлено в

Долгая дорога к DiT (часть 2)

Новая задача

продолжить чтение

Оставлено в

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке.

продолжить чтение

Оставлено в

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.

продолжить чтение

Оставлено в

Полезные задачи на Kaggle ( LLM, Diffusion Models)

В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач.Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:🌍 более 13 миллионов участников из разных стран;🏆 сотни активных соревнований ежегодно;📊 миллионы доступных датасетов и готовых ноутбуков.

продолжить чтение

Оставлено в

Долгая дорога к DiT (часть 1)

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель

продолжить чтение

Оставлено в

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Привет, Хабр! Меня зовут Нина, я работаю инженером исследователем в AIRI, где мы с моими коллегами активно исследуем возможности генеративного ИИ. Особое место в нашей рабочей повестке занимает применение диффузионных моделей к различным задачам.Не так давно мы получили приятную новость: нашу статью

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

diffusion models.

Как мы ускоряли диффузионный декодер TTS

Flow Matching, 276M параметров и моделирование хаоса: как мы научили генеративную модель Marchuk предсказывать погоду

Simple diffusion – компактная модель генерации изображений

Русский культурный код как оценка генеративных моделей

Долгая дорога к DiT (часть 2)

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Что я вынес из Oxford Machine Learning Summer School 2025

Полезные задачи на Kaggle ( LLM, Diffusion Models)

Долгая дорога к DiT (часть 1)

Мечтают ли диффузионки о 3D-алайнменте, или что мы планируем рассказать на грядущей ICLR

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

diffusion models.