First Principles расчёт realtime видеогенерации
Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.Глава 1: Baseline — считаем от Wan2.1-14BДля расчётов нам нужна конкретная архитектура, которую можно разложить на числа. Берём Wan2.1-14B
Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%
OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime

