- BrainTools - https://www.braintools.ru -

Команда Kandinsky выпустила в открытый доступ семейство токенизаторов KVAE-2.0 для генерации изображений и видео

Разработчики Kandinsky выложили [1] в открытый доступ KVAE-2.0. KVAE-2.0 представляет собой семейство токенизаторов для диффузионных моделей генерации изображений и видео. Как сообщили информационной службе Хабра в пресс‑службе «Сбера», новое решение позволяет сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией. При этом качество восстановления изображения становится только лучше. Для разработчиков и исследователей это означает, что обучение [2] диффузионных моделей ускоряется на порядок. Сами решения на базе искусственного интеллекта [3] работают качественнее. Требования к вычислительной инфраструктуре снижаются.

Токенизаторы преобразуют изображения и видео в компактный числовой код, который называется латентным представлением. С ним работают генеративные модели, такие как Kandinsky. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и её итоговое качество.

KVAE-2.0 фокусируется на создании семантически устойчивых представлений. Это специальные коды, которые точно и стабильно отражают смысл изображения и лучше сохраняют значимые элементы сцены, такие как текст, лица и структурные объекты. Это критично для работы основной генеративной модели в прикладных сценариях. Среди них генерация рекламных материалов и создание образовательного контента. Модели KVAE-2.0 дополнительно обучили работе с русским текстом в кадре. В этих сценариях их качество значительно выше аналогов.

Как заявили создатели, по ключевым метрикам качества KVAE-2.0 опережает аналоги от Tencent и Alibaba. Руководитель проекта Kandinsky и управляющий директор по исследованию данных «Сбера» Денис Димитров отметил, что с KVAE-2.0 качественная видеогенерация стала доступнее для стартапов, университетов и независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле. Разработчики могут не зависеть от зарубежных токенизаторов и достигать лучших результатов по качеству.

По словам Дениса Димитрова, это открывает новые сценарии. Среди них генерация рекламных роликов с точными логотипами и текстом, а также создание учебных материалов с чёткими визуальными деталями. Денис Димитров добавил, что все модели линейки находятся в открытом доступе. Это даёт инженерам и исследователям возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий.

Автор: Lexx_Nimofff

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/29671

URLs in this post:

[1] выложили: https://www.sberbank.ru/ru/sberpress/tekhnologii/article?newsID=8a72ae93-15d2-44ca-9a88-d49fc5b91fd2&blockID=69b149cd-6db4-45aa-ade1-b6920d771b11&regionID=77&lang=ru&type=NEWS

[2] обучение: http://www.braintools.ru/article/5125

[3] интеллекта: http://www.braintools.ru/article/7605

[4] Источник: https://habr.com/ru/news/1030256/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1030256

www.BrainTools.ru

Rambler's Top100