Бесплатная нейросеть для генерации музыки локально: ACE-Step 1.5 обходит Suno на бенчмарках
2 апреля вышла ACE-Step 1.5 XL — open source модель для генерации музыки с 4-миллиардным DiT-декодером. MIT-лицензия, работает локально, от 4 ГБ VRAM для базовой версии. По бенчмарку SongEval обходит Suno v5.Я потратил пару дней на изучение архитектуры и тесты — расскажу, что внутри, где модель действительно впечатляет, а где промо-материалы приукрашивают.Почему это важноДо сих пор генерация музыки была поделена на два лагеря: закрытые коммерческие сервисы (Suno, Udio, ElevenLabs Music) с хорошим качеством, но за подписку — и open source модели с посредственным результатом.
First Principles расчёт realtime видеогенерации
Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.Глава 1: Baseline — считаем от Wan2.1-14BДля расчётов нам нужна конкретная архитектура, которую можно разложить на числа. Берём Wan2.1-14B
Kandinsky 5.0 vs Stable Diffusion: практический тест на 6 сценариях для иллюстраций и ассетов
В разработке мне регулярно нужны картинки “вокруг кода”: обложки к техпостам/README, иллюстрации в документацию, а иногда — быстрые ассеты/референсы для пет-проектов.В рамках сезона решил протестировать Kandinsky 5.0 на типовых сценах и сравнить ощущения с привычным пайплайном на Stable Diffusion: где быстрее получить годный результат без плясок с промптом, а где лучше иметь “запасной аэродром”.Под “разработческими задачами” здесь я имею в виду не генерацию кода, а задачи вокруг продукта: обложки к постам/README, иллюстрации к документации и быстрые прототипы визуалов/ассетов для пет-проектов.Методика и сетап
K-VAE токенизатор от Сбера
Одни из самых перспективных решений среди генеративных моделей принадлежат к классу LDM (latent diffusion models): Stable Diffusion, Wan, Flux и многие другие. Превращение шума в изображение происходит в два этапа: сперва диффузионная модель создаёт латент, который затем декодируется в изображение намного большего размера. За декодирование и формирование латентного пространства в большинстве моделей этого класса отвечает токенизатор изображений. Таким образом, качество этой модели напрямую влияет на результаты генерации.
Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть
Обо мнеПривет, меня зовут Василий Техин. В первой статье мы разобрали ResNet, во второй — ViT. Теперь погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3.Пролог: От распознавания к созданиюПредставьте нейросеть как художника. Раньше она только анализировала картины ("Это Ван Гог!"). Теперь она создаёт шедевры в стиле Ван Гога и не только!
Kandinsky 4.1 Image – новый генератор изображений от Сбера
В декабре прошлого года на конференции AI Journey наша команда представила диффузионную генеративную модель Kandinsky 4.0 Video (статья на habr

