First Principles расчёт realtime видеогенерации
Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.Глава 1: Baseline — считаем от Wan2.1-14BДля расчётов нам нужна конкретная архитектура, которую можно разложить на числа. Берём Wan2.1-14B
Генерация видео: Обзор интересных подходов | Text-2-video | Part 2
Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только самое важное.Разберём устройство топовых SOTA-моделей для генерации видео: Wan2.1, Hunyuan Video, а также недавно представленный подход FramePack, направленный на снижение вычислительных требований.Советую ознакомиться с первой частьюНачнем со старичка: Stable Video DiffusionStable Video DiffusionСсылка на оригинальную статью

