vae.

K-VAE токенизатор от Сбера

Одни из самых перспективных решений среди генеративных моделей принадлежат к классу LDM (latent diffusion models): Stable Diffusion, Wan, Flux и многие другие. Превращение шума в изображение происходит в два этапа: сперва диффузионная модель создаёт латент, который затем декодируется в изображение намного большего размера. За декодирование и формирование латентного пространства в большинстве моделей этого класса отвечает токенизатор изображений. Таким образом, качество этой модели напрямую влияет на результаты генерации.

продолжить чтение

Оставлено в

Современные генеративные модели и приложения на их основе

продолжить чтение

Оставлено в

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Обо мнеПривет, меня зовут Василий Техин. В первой статье мы разобрали ResNet, во второй — ViT. Теперь погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3.Пролог: От распознавания к созданиюПредставьте нейросеть как художника. Раньше она только анализировала картины ("Это Ван Гог!"). Теперь она создаёт шедевры в стиле Ван Гога и не только!

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

vae.

K-VAE токенизатор от Сбера

Современные генеративные модели и приложения на их основе

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

vae.

K-VAE токенизатор от Сбера

Современные генеративные модели и приложения на их основе

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть