- BrainTools - https://www.braintools.ru -
Разработчики Kandinsky выложили [1] в открытый доступ KVAE-2.0. KVAE-2.0 представляет собой семейство токенизаторов для диффузионных моделей генерации изображений и видео. Как сообщили информационной службе Хабра в пресс‑службе «Сбера», новое решение позволяет сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией. При этом качество восстановления изображения становится только лучше. Для разработчиков и исследователей это означает, что обучение [2] диффузионных моделей ускоряется на порядок. Сами решения на базе искусственного интеллекта [3] работают качественнее. Требования к вычислительной инфраструктуре снижаются.
Токенизаторы преобразуют изображения и видео в компактный числовой код, который называется латентным представлением. С ним работают генеративные модели, такие как Kandinsky. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и её итоговое качество.
KVAE-2.0 фокусируется на создании семантически устойчивых представлений. Это специальные коды, которые точно и стабильно отражают смысл изображения и лучше сохраняют значимые элементы сцены, такие как текст, лица и структурные объекты. Это критично для работы основной генеративной модели в прикладных сценариях. Среди них генерация рекламных материалов и создание образовательного контента. Модели KVAE-2.0 дополнительно обучили работе с русским текстом в кадре. В этих сценариях их качество значительно выше аналогов.
Как заявили создатели, по ключевым метрикам качества KVAE-2.0 опережает аналоги от Tencent и Alibaba. Руководитель проекта Kandinsky и управляющий директор по исследованию данных «Сбера» Денис Димитров отметил, что с KVAE-2.0 качественная видеогенерация стала доступнее для стартапов, университетов и независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле. Разработчики могут не зависеть от зарубежных токенизаторов и достигать лучших результатов по качеству.
По словам Дениса Димитрова, это открывает новые сценарии. Среди них генерация рекламных роликов с точными логотипами и текстом, а также создание учебных материалов с чёткими визуальными деталями. Денис Димитров добавил, что все модели линейки находятся в открытом доступе. Это даёт инженерам и исследователям возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий.
Автор: Lexx_Nimofff
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29671
URLs in this post:
[1] выложили: https://www.sberbank.ru/ru/sberpress/tekhnologii/article?newsID=8a72ae93-15d2-44ca-9a88-d49fc5b91fd2&blockID=69b149cd-6db4-45aa-ade1-b6920d771b11®ionID=77&lang=ru&type=NEWS
[2] обучение: http://www.braintools.ru/article/5125
[3] интеллекта: http://www.braintools.ru/article/7605
[4] Источник: https://habr.com/ru/news/1030256/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1030256
Нажмите здесь для печати.