video generation.

First Principles расчёт realtime видеогенерации

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.Глава 1: Baseline — считаем от Wan2.1-14BДля расчётов нам нужна конкретная архитектура, которую можно разложить на числа. Берём Wan2.1-14B

продолжить чтение

Midjourney Video: как превратить картинку в видео в 2025 году?

продолжить чтение

Генерация видео: Обзор интересных подходов | Text-2-video | Part 2

Освещу базовые концепты в области генерации видео. В этой части рассмотрю как современные модели 2025 года, так и несколько ключевых архитектур, с которых всё начиналось. Всё кратко и по делу — только самое важное.Разберём устройство топовых SOTA-моделей для генерации видео: Wan2.1, Hunyuan Video, а также недавно представленный подход FramePack, направленный на снижение вычислительных требований.Советую ознакомиться с первой частьюНачнем со старичка: Stable Video DiffusionStable Video DiffusionСсылка на оригинальную статью

продолжить чтение

Генерация видео: Обзор интересных подходов | Text-2-video | Part 1

Тут я расскажу про основные подходы в генерации видео, материал будет полезен ML/Computer vision разработчикам, чтобы держать руку на пульсе, и людям интересующимся нейросетями + AIПлан следующий:Методы адаптации T2I в T2V: AnimateDiff, Text2Video ZeroОбзор классических подходов: Stable Video Diffusion, CogVideoНовые модельки 2025: Wan2.1, HunyuanVideo, FramePackЭто первая часть из списка статей, тут будет только про T2I в T2VIntro

продолжить чтение