
Исследователи представили STARFlow V, новую модель для генерации видео, построенную не на диффузии, а на нормализующих потоках. Команда заявляет, что это первая система такого масштаба, которая демонстрирует стабильную и конкурентоспособную генерацию без многошагового шумоподавления. Модель использует полностью сквозное обучение и причинную структуру, что дает ей возможность создавать кадры в правильном временном порядке и без накопления ошибок.
В основе STARFlow V лежит архитектура с глобальными и локальными латентными пространствами. Глобальная часть управляет динамикой и согласованностью между кадрами, локальная часть отвечает за детально прорисованную картинку. Такой подход позволяет модели поддерживать высокое качество и плавность видео, даже если ролик получается длинным. На демонстрациях видно, что STARFlow V создает видео с устойчивой структурой, реалистичными объектами и точными переходами между сценами.
Разработчики применили алгоритм Flow Score Matching и эффективные итерации обновления, чтобы ускорить обучение и саму генерацию. В итоге модель работает быстрее, чем диффузионные аналоги с сопоставимым качеством. STARFlow V справляется с задачами text to video, image to video и video to video, а также может реконструировать видео из латентного пространства. Демонстрации показывают уверенную обработку сложных движений, света, теней и перспективы.
Команда открыла код, примеры и описание подхода. Исследователи считают, что STARFlow V становится шагом к тому, чтобы нормализующие потоки перестали быть экспериментальной техникой и стали полноценной альтернативой доминирующим диффузионным моделям. Проект показывает, что направление с потоками может дать более простую и прямую генерацию, без долгих итераций и без потерь согласованности.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


