2 апреля вышла ACE-Step 1.5 XL — open source модель для генерации музыки с 4-миллиардным DiT-декодером. MIT-лицензия, работает локально, от 4 ГБ VRAM для базовой версии. По бенчмарку SongEval обходит Suno v5.
Я потратил пару дней на изучение архитектуры и тесты — расскажу, что внутри, где модель действительно впечатляет, а где промо-материалы приукрашивают.
Почему это важно
До сих пор генерация музыки была поделена на два лагеря: закрытые коммерческие сервисы (Suno, Udio, ElevenLabs Music) с хорошим качеством, но за подписку — и open source модели с посредственным результатом.
ACE-Step 1.5 — первая open source модель, которая на стандартных бенчмарках обходит коммерческих конкурентов. Её называют «Stable Diffusion moment для музыки» — момент, когда технология перестала быть закрытой и стала доступна всем.
Разработчики — ACE Studio и StepFun. Научная статья на arXiv (2602.00744), что для музыкальных AI-моделей — редкость.
Архитектура: LM + DiT
Самое интересное — архитектура. ACE-Step не использует один большой трансформер для всего. Вместо этого — двухстадийный пайплайн:
Стадия 1: Language Model (LM) как планировщик. Модель от 0.6B до 4B параметров получает текстовый промт и генерирует «чертёж» песни: структуру, стиль, аранжировку, текст. Используется Chain-of-Thought — модель рассуждает пошагово, разбивая задачу на компоненты.
Это не генерация аудио — это планирование. LM решает, какие инструменты использовать, какая структура у куплетов и припевов, какой темп. Результат — промежуточное представление, которое передаётся на вторую стадию.
Стадия 2: Diffusion Transformer (DiT) как генератор аудио. DiT (2B для базовой, 4B для XL) принимает план от LM и генерирует само аудио. Используется DCAE (Deep Compression AutoEncoder) от Sana для сжатия аудио в латентное пространство — это то, что позволяет работать с малым количеством VRAM.
Разделение планирования и синтеза — ключевое решение. LM хорошо справляется с высокоуровневой структурой (куплет-припев-бридж), но плохо генерирует аудио напрямую. DiT хорошо генерирует аудио, но ему нужен чёткий план. Вместе они работают лучше, чем каждый по отдельности.
Цифры
По данным из статьи:
-
SongEval: 8.09 (Suno v5 — ниже, точная цифра для Suno не публикуется авторами)
-
Lyric Alignment: 8.35 — модель хорошо синхронизирует вокал с текстом
-
Скорость: полный трек за ~2 секунды на A100, ~10 секунд на RTX 3090
-
VRAM: от 4 ГБ (базовая), от 12 ГБ (XL с offload)
-
Длительность: от 10 секунд до 10 минут
Turbo-версия генерирует за 4-8 шагов диффузии — это очень мало. Обычные диффузионные модели используют 50-100 шагов. Дистилляция позволяет сократить количество шагов без критической потери качества.
Что модель умеет кроме text-to-music
-
Cover generation — переаранжировка существующего трека в другом стиле
-
Audio repainting — перегенерация отдельных тактов без изменения остального
-
Vocal-to-BGM — генерация аккомпанемента по вокальному треку
-
LoRA fine-tuning — персонализация на нескольких треках для захвата стиля
Repainting — любопытная фича. Можно сгенерировать трек, послушать, и если не нравится один кусок — перегенерировать только его. В теории. На практике — авторы сами пишут, что переходы в местах склейки звучат неестественно. Честно с их стороны.
Что реально не работает (из limitations самих авторов)
Авторы честно перечисляют проблемы — это редкость для промо-материалов:
Output Inconsistency. Результат сильно зависит от random seed и длительности. Одинаковый промт может дать отличный трек и полную ерунду. Авторы называют это «gacha-style results» — как в играх, где тебе выпадает рандомный лут.
Вокал. «Coarse vocal synthesis lacking nuance» — вокал грубоватый, без тонкостей. Для фоновой музыки и инструментала — нормально. Для вокальных треков, где голос — главный элемент — пока слабо.
Некоторые жанры. Китайский рэп, по признанию авторов, генерируется плохо. Скорее всего, и другие нишевые жанры будут проблемными — модель обучена преимущественно на мейнстримных стилях.
Контроль. «Needs finer-grained musical parameter control» — нельзя задать конкретный BPM, тональность, аккордовую прогрессию. Вы описываете стиль словами, а модель интерпретирует как хочет.
Как попробовать
Самый быстрый способ — демо на Hugging Face: huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
Просто вводите описание стиля и (опционально) текст песни — и через несколько секунд получаете результат. Без регистрации, без установки.
Локальная установка:
git clone https://github.com/ace-step/ACE-Step-1.5
cd ACE-Step-1.5
# Windows
start_gradio_ui.bat
# Linux
chmod +x start_gradio_ui.sh && ./start_gradio_ui.sh
# macOS (Apple Silicon)
chmod +x start_gradio_ui_macos.sh && ./start_gradio_ui_macos.sh
Скрипт сам скачает модели и запустит Gradio-интерфейс. Для базовой версии хватит RTX 3060 (12 ГБ). Для XL нужно 20 ГБ+ (RTX 3090, 4090, A100).
Поддерживает Mac на Apple Silicon, AMD с ROCm, Intel — не только NVIDIA.
Через ComfyUI — есть готовый нод, если вы уже работаете в этой экосистеме.
Suno умерла?
Нет. Заголовок «Suno убили» — красиво, но не точно.
Suno — это сервис, а не модель. Вы открываете сайт, пишете «весёлый поп-рок про кота» и через минуту получаете готовый трек. Никакой установки, никаких GPU, никаких конфигов.
ACE-Step — это модель, которую нужно скачать, установить, настроить. Результат зависит от вашего промта и от того, какой seed выпадет. Для музыканта или разработчика, который готов экспериментировать — отлично. Для человека, который хочет «нажал кнопку — получил песню» — Suno по-прежнему проще.
Но для тех, кому важна приватность (данные не уходят в облако), кастомизация (LoRA на своём стиле) и отсутствие подписки — ACE-Step 1.5 меняет расклад. Впервые можно получить коммерческое качество генерации музыки полностью локально и бесплатно.
GitHub: github.com/ace-step/ACE-Step-1.5 Демо: huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
Пробовали генерировать музыку с помощью AI? Для каких задач это реально полезно, а где пока рано?
Автор: nlaik


