K-VAE токенизатор от Сбера
Одни из самых перспективных решений среди генеративных моделей принадлежат к классу LDM (latent diffusion models): Stable Diffusion, Wan, Flux и многие другие. Превращение шума в изображение происходит в два этапа: сперва диффузионная модель создаёт латент, который затем декодируется в изображение намного большего размера. За декодирование и формирование латентного пространства в большинстве моделей этого класса отвечает токенизатор изображений. Таким образом, качество этой модели напрямую влияет на результаты генерации.
Как я гифку с помощью ИИ сжимал
обложкаВступлениеПривет, Хабр! Я графический дизайнер. Занимаюсь созданием сайтов, иллюстраций, немного работаю с видео и в качестве хобби увлекаюсь 3D. Я никогда не считал себя программистом. Да, я умею читать код, понимаю его логику, но вот так, чтобы самостоятельно сесть и написать что‑то с нуля... до недавнего времени это казалось мне чем‑то запредельным.Проблема

