ИИ-система StreamDiT генерирует видео в реальном времени со скоростью 16 кадров в секунду и разрешением 512p

Новая система искусственного интеллекта ^[1] под названием StreamDiT может генерировать видео в реальном времени на основе текстовых описаний, открывая новые возможности для игр и интерактивных медиа.

StreamDiT, разработанный исследователями из Meta* и Калифорнийского университета в Беркли, создаёт видео в режиме реального времени со скоростью 16 кадров в секунду с помощью одного высокопроизводительного графического процессора. Модель с 4 миллиардами параметров выдаёт видео в разрешении 512p. В отличие от предыдущих систем, которые генерировали полные видеоклипы перед воспроизведением, StreamDiT создаёт видеопотоки в режиме реального времени, кадр за кадром.

Команда продемонстрировала различные варианты использования. StreamDiT может на лету генерировать минутные видеоролики, отвечать на интерактивные запросы и даже редактировать существующие видео в режиме реального времени. В одной из демонстраций свинья на видео превратилась в кошку, а фон остался прежним.

С помощью текстовой подсказки StreamDiT преобразует бегущую свинью из входного видео в кошку из выходного, демонстрируя редактирование видео на основе подсказок в реальном времени

Система основана на специальной архитектуре, разработанной для повышения скорости. StreamDiT использует скользящий буфер для одновременной обработки нескольких кадров, работая над следующим кадром и выводя предыдущий. Новые кадры сначала получаются зашумлёнными, но постепенно очищаются, пока не становятся готовыми к отображению. Согласно статье, системе требуется около полсекунды для создания двух кадров, а после обработки получается восемь готовых изображений.

StreamDiT делит буфер на фиксированные опорные кадры и короткие фрагменты. Визуализация автопоследовательности показывает, что по мере шумоподавления сходство изображений уменьшается (от зелёного к красному)

Тренировка универсальности

Процесс обучения ^[2] был разработан таким образом, чтобы повысить универсальность. Вместо того чтобы сосредоточиться на одном методе создания видео, модель обучалась с использованием нескольких подходов на 3000 высококачественных видео и более крупном наборе данных, состоящем из 2,6 миллиона видео. Обучение проводилось на 128 графических процессорах Nvidia H100. Исследователи обнаружили, что наилучшие результаты даёт сочетание фрагментов размером от 1 до 16 кадров.

Чтобы обеспечить производительность в реальном времени, команда внедрила метод ускорения, который сокращает количество необходимых вычислительных шагов со 128 до 8 с минимальным влиянием на качество изображения. Архитектура также оптимизирована для повышения эффективности: вместо того чтобы каждый элемент изображения взаимодействовал со всеми остальными, обмен информацией происходит только между локальными областями.

При прямом сравнении StreamDiT превзошёл существующие методы, такие как ReuseDiffuse и диффузия FIFO, особенно в отношении видео с большим количеством движений. В то время как другие модели создавали статичные сцены, StreamDiT генерировал более динамичные и естественные движения.

Эксперты-люди оценивали работу системы с точки зрения ^[3] плавности движения, полноты анимации, согласованности кадров и общего качества. Во всех категориях StreamDiT показал лучшие результаты при тестировании восьмисекундных видео в разрешении 512p.

Эксперты-люди оценивали естественность движения, его полноту, согласованность кадров и общее впечатление ^[4]

Модель большего размера, лучшего качества, но медленнее

Команда также провела эксперимент с гораздо более крупной моделью с 30 миллиардами параметров, которая обеспечивала ещё более высокое качество видео, хотя и была недостаточно быстрой для использования в реальном времени. Результаты показывают, что этот подход можно масштабировать для более крупных систем.

Сохраняются некоторые ограничения, в том числе ограниченная способность StreamDiT «запоминать» более ранние фрагменты видео и периодические видимые переходы между разделами. Исследователи говорят, что работают над решением этих проблем.

Другие компании также изучают возможности создания видео с помощью ИИ в режиме реального времени. Например, Odyssey недавно представила авторегрессионную модель мира ^[5], которая покадрово адаптирует видео в ответ на действия пользователя, делая интерактивный опыт ^[6] более доступным.

Делегируйте часть рутинных задач вместе с BotHub ^[7]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Перевод, источник новости здесь ^[9].

Автор: mefdayy

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17244

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] обучения: http://www.braintools.ru/article/5125

[3] зрения: http://www.braintools.ru/article/6238

[4] впечатление: http://www.braintools.ru/article/2012

[5] Например, Odyssey недавно представила авторегрессионную модель мира: https://the-decoder.com/generative-ai-startup-odyssey-demos-interactive-ai-generated-video/

[6] опыт: http://www.braintools.ru/article/6952

[7] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=THE_AI_SYSTEM_STREAMDIT_GENERATES_VIDEOS_IN_REAL_TIME_AT_A_RATE_OF_16_FRAMES_PER_SECOND_AND_WITH_A_RESOLUTION_OF_512P

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] здесь: https://the-decoder.com/ai-system-streamdit-generates-livestream-videos-from-text-at-16-fps-512p/

[10] Источник: https://habr.com/ru/companies/bothub/news/927316/?utm_source=habrahabr&utm_medium=rss&utm_campaign=927316

Нажмите здесь для печати.