- BrainTools - https://www.braintools.ru -
Китайская компания ByteDance представила [1] Goku — семейство нейросетей для генерации видео. Модели машинного обучения [2] разработали совместно с исследователями Гонконгского университета.
Goku генерирует видео в горизонтальной и вертикальной ориентации экрана в нескольких режимах, включая Text to Video, Image to Video и Text to Image. Нейросеть построена на архитектуре Rectified flow transformers [3], которая за счёт коррекции потока данных между токенами создаёт более реалистичные и сложные работы.
В бенчмарке VBench модель Goku набрала 84,85 балла и в рейтинге Text to Video обошла нейросети Pika-1.0, OpenSora V1.2, Kling и Mira. В GenEval и DPG-Bench решение от ByteDance набрало 0,76 и 83,65 балла соответственно.
Помимо базовой модели семейство включает в себе Goku+ — нейросеть для генерации рекламных видео длительностью до 20 секунд. Нейросеть может создавать реалистичных людей в кадре, которые активно жестикулируют во время разговора. Помимо людей в кадр можно добавить рекламируемый продукт.
Примеры видео от Goku по промптам из MovieGenBench доступны [1] на сайте проекта. Также авторы работы поделились [4] текстом исследования, а результаты тестов опубликовали [5] на GitHub.
Автор: daniilshat
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12066
URLs in this post:
[1] представила: https://saiyan-world.github.io/goku/
[2] обучения: http://www.braintools.ru/article/5125
[3] Rectified flow transformers: https://arxiv.org/abs/2403.03206
[4] поделились: https://arxiv.org/abs/2502.04896
[5] опубликовали: https://github.com/Saiyan-World/goku
[6] Источник: https://habr.com/ru/news/881136/?utm_source=habrahabr&utm_medium=rss&utm_campaign=881136
Нажмите здесь для печати.