First Principles расчёт realtime видеогенерации
Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.Глава 1: Baseline — считаем от Wan2.1-14BДля расчётов нам нужна конкретная архитектура, которую можно разложить на числа. Берём Wan2.1-14B
Когда вычисления станут бесконечными: разбор интервью Илона Маска от 5.02.26
Преамбула. Человек в очередиВ 1937 году дальнобойщик Малком МакЛин простоял несколько часов на причале в Нью-Джерси — ждал, пока грузчики вручную перекладывают тысячи ящиков с его грузовика на борт корабля. Разгрузка шла медленно: каждая единица груза — отдельная операция, каждая перевалка — потерянные дни. (OpenSIUC)
Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Кому лень читать полностью
Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение
TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».Звучит умно. Проблема? Это полная ерунда.Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.Ось упёрлась? Значит, AI упёрся.Нет. Не значит.Давайте честно: одномерное мышление — это ловушка2012 год.
Куда и почему уходят бабки на нейросети
Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.

