- BrainTools - https://www.braintools.ru -
Новая система искусственного интеллекта [1] под названием StreamDiT может генерировать видео в реальном времени на основе текстовых описаний, открывая новые возможности для игр и интерактивных медиа.

StreamDiT, разработанный исследователями из Meta* и Калифорнийского университета в Беркли, создаёт видео в режиме реального времени со скоростью 16 кадров в секунду с помощью одного высокопроизводительного графического процессора. Модель с 4 миллиардами параметров выдаёт видео в разрешении 512p. В отличие от предыдущих систем, которые генерировали полные видеоклипы перед воспроизведением, StreamDiT создаёт видеопотоки в режиме реального времени, кадр за кадром.
Команда продемонстрировала различные варианты использования. StreamDiT может на лету генерировать минутные видеоролики, отвечать на интерактивные запросы и даже редактировать существующие видео в режиме реального времени. В одной из демонстраций свинья на видео превратилась в кошку, а фон остался прежним.
Система основана на специальной архитектуре, разработанной для повышения скорости. StreamDiT использует скользящий буфер для одновременной обработки нескольких кадров, работая над следующим кадром и выводя предыдущий. Новые кадры сначала получаются зашумлёнными, но постепенно очищаются, пока не становятся готовыми к отображению. Согласно статье, системе требуется около полсекунды для создания двух кадров, а после обработки получается восемь готовых изображений.
Процесс обучения [2] был разработан таким образом, чтобы повысить универсальность. Вместо того чтобы сосредоточиться на одном методе создания видео, модель обучалась с использованием нескольких подходов на 3000 высококачественных видео и более крупном наборе данных, состоящем из 2,6 миллиона видео. Обучение проводилось на 128 графических процессорах Nvidia H100. Исследователи обнаружили, что наилучшие результаты даёт сочетание фрагментов размером от 1 до 16 кадров.
Чтобы обеспечить производительность в реальном времени, команда внедрила метод ускорения, который сокращает количество необходимых вычислительных шагов со 128 до 8 с минимальным влиянием на качество изображения. Архитектура также оптимизирована для повышения эффективности: вместо того чтобы каждый элемент изображения взаимодействовал со всеми остальными, обмен информацией происходит только между локальными областями.
При прямом сравнении StreamDiT превзошёл существующие методы, такие как ReuseDiffuse и диффузия FIFO, особенно в отношении видео с большим количеством движений. В то время как другие модели создавали статичные сцены, StreamDiT генерировал более динамичные и естественные движения.
Эксперты-люди оценивали работу системы с точки зрения [3] плавности движения, полноты анимации, согласованности кадров и общего качества. Во всех категориях StreamDiT показал лучшие результаты при тестировании восьмисекундных видео в разрешении 512p.
Команда также провела эксперимент с гораздо более крупной моделью с 30 миллиардами параметров, которая обеспечивала ещё более высокое качество видео, хотя и была недостаточно быстрой для использования в реальном времени. Результаты показывают, что этот подход можно масштабировать для более крупных систем.
Сохраняются некоторые ограничения, в том числе ограниченная способность StreamDiT «запоминать» более ранние фрагменты видео и периодические видимые переходы между разделами. Исследователи говорят, что работают над решением этих проблем.
Другие компании также изучают возможности создания видео с помощью ИИ в режиме реального времени. Например, Odyssey недавно представила авторегрессионную модель мира [5], которая покадрово адаптирует видео в ответ на действия пользователя, делая интерактивный опыт [6] более доступным.
Делегируйте часть рутинных задач вместе с BotHub [7]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Перевод, источник новости здесь [9].
Автор: mefdayy
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17244
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучения: http://www.braintools.ru/article/5125
[3] зрения: http://www.braintools.ru/article/6238
[4] впечатление: http://www.braintools.ru/article/2012
[5] Например, Odyssey недавно представила авторегрессионную модель мира: https://the-decoder.com/generative-ai-startup-odyssey-demos-interactive-ai-generated-video/
[6] опыт: http://www.braintools.ru/article/6952
[7] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=THE_AI_SYSTEM_STREAMDIT_GENERATES_VIDEOS_IN_REAL_TIME_AT_A_RATE_OF_16_FRAMES_PER_SECOND_AND_WITH_A_RESOLUTION_OF_512P
[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[9] здесь: https://the-decoder.com/ai-system-streamdit-generates-livestream-videos-from-text-at-16-fps-512p/
[10] Источник: https://habr.com/ru/companies/bothub/news/927316/?utm_source=habrahabr&utm_medium=rss&utm_campaign=927316
Нажмите здесь для печати.