K-VAE токенизатор от Сбера
Одни из самых перспективных решений среди генеративных моделей принадлежат к классу LDM (latent diffusion models): Stable Diffusion, Wan, Flux и многие другие. Превращение шума в изображение происходит в два этапа: сперва диффузионная модель создаёт латент, который затем декодируется в изображение намного большего размера. За декодирование и формирование латентного пространства в большинстве моделей этого класса отвечает токенизатор изображений. Таким образом, качество этой модели напрямую влияет на результаты генерации.

