Бесплатная нейросеть для генерации музыки локально: ACE-Step 1.5 обходит Suno на бенчмарках. ai.. ai. diffusion.. ai. diffusion. генерация музыки.. ai. diffusion. генерация музыки. музыка.

2 апреля вышла ACE-Step 1.5 XL — open source модель для генерации музыки с 4-миллиардным DiT-декодером. MIT-лицензия, работает локально, от 4 ГБ VRAM для базовой версии. По бенчмарку SongEval обходит Suno v5.

Я потратил пару дней на изучение архитектуры и тесты — расскажу, что внутри, где модель действительно впечатляет, а где промо-материалы приукрашивают.

Почему это важно

До сих пор генерация музыки была поделена на два лагеря: закрытые коммерческие сервисы (Suno, Udio, ElevenLabs Music) с хорошим качеством, но за подписку — и open source модели с посредственным результатом.

ACE-Step 1.5 — первая open source модель, которая на стандартных бенчмарках обходит коммерческих конкурентов. Её называют «Stable Diffusion moment для музыки» — момент, когда технология перестала быть закрытой и стала доступна всем.

Разработчики — ACE Studio и StepFun. Научная статья на arXiv (2602.00744), что для музыкальных AI-моделей — редкость.

Архитектура: LM + DiT

Самое интересное — архитектура. ACE-Step не использует один большой трансформер для всего. Вместо этого — двухстадийный пайплайн:

Стадия 1: Language Model (LM) как планировщик. Модель от 0.6B до 4B параметров получает текстовый промт и генерирует «чертёж» песни: структуру, стиль, аранжировку, текст. Используется Chain-of-Thought — модель рассуждает пошагово, разбивая задачу на компоненты.

Это не генерация аудио — это планирование. LM решает, какие инструменты использовать, какая структура у куплетов и припевов, какой темп. Результат — промежуточное представление, которое передаётся на вторую стадию.

Стадия 2: Diffusion Transformer (DiT) как генератор аудио. DiT (2B для базовой, 4B для XL) принимает план от LM и генерирует само аудио. Используется DCAE (Deep Compression AutoEncoder) от Sana для сжатия аудио в латентное пространство — это то, что позволяет работать с малым количеством VRAM.

Разделение планирования и синтеза — ключевое решение. LM хорошо справляется с высокоуровневой структурой (куплет-припев-бридж), но плохо генерирует аудио напрямую. DiT хорошо генерирует аудио, но ему нужен чёткий план. Вместе они работают лучше, чем каждый по отдельности.

Цифры

По данным из статьи:

SongEval: 8.09 (Suno v5 — ниже, точная цифра для Suno не публикуется авторами)
Lyric Alignment: 8.35 — модель хорошо синхронизирует вокал с текстом
Скорость: полный трек за ~2 секунды на A100, ~10 секунд на RTX 3090
VRAM: от 4 ГБ (базовая), от 12 ГБ (XL с offload)
Длительность: от 10 секунд до 10 минут

Turbo-версия генерирует за 4-8 шагов диффузии — это очень мало. Обычные диффузионные модели используют 50-100 шагов. Дистилляция позволяет сократить количество шагов без критической потери качества.

Что модель умеет кроме text-to-music

Cover generation — переаранжировка существующего трека в другом стиле
Audio repainting — перегенерация отдельных тактов без изменения остального
Vocal-to-BGM — генерация аккомпанемента по вокальному треку
LoRA fine-tuning — персонализация на нескольких треках для захвата стиля

Repainting — любопытная фича. Можно сгенерировать трек, послушать, и если не нравится один кусок — перегенерировать только его. В теории. На практике — авторы сами пишут, что переходы в местах склейки звучат неестественно. Честно с их стороны.

Что реально не работает (из limitations самих авторов)

Авторы честно перечисляют проблемы — это редкость для промо-материалов:

Output Inconsistency. Результат сильно зависит от random seed и длительности. Одинаковый промт может дать отличный трек и полную ерунду. Авторы называют это «gacha-style results» — как в играх, где тебе выпадает рандомный лут.

Вокал. «Coarse vocal synthesis lacking nuance» — вокал грубоватый, без тонкостей. Для фоновой музыки и инструментала — нормально. Для вокальных треков, где голос — главный элемент — пока слабо.

Некоторые жанры. Китайский рэп, по признанию авторов, генерируется плохо. Скорее всего, и другие нишевые жанры будут проблемными — модель обучена преимущественно на мейнстримных стилях.

Контроль. «Needs finer-grained musical parameter control» — нельзя задать конкретный BPM, тональность, аккордовую прогрессию. Вы описываете стиль словами, а модель интерпретирует как хочет.

Как попробовать

Самый быстрый способ — демо на Hugging Face: huggingface.co/spaces/ACE-Step/Ace-Step-v1.5

Просто вводите описание стиля и (опционально) текст песни — и через несколько секунд получаете результат. Без регистрации, без установки.

Локальная установка:

git clone https://github.com/ace-step/ACE-Step-1.5
cd ACE-Step-1.5

# Windows
start_gradio_ui.bat

# Linux
chmod +x start_gradio_ui.sh && ./start_gradio_ui.sh

# macOS (Apple Silicon)
chmod +x start_gradio_ui_macos.sh && ./start_gradio_ui_macos.sh

Скрипт сам скачает модели и запустит Gradio-интерфейс. Для базовой версии хватит RTX 3060 (12 ГБ). Для XL нужно 20 ГБ+ (RTX 3090, 4090, A100).

Поддерживает Mac на Apple Silicon, AMD с ROCm, Intel — не только NVIDIA.

Через ComfyUI — есть готовый нод, если вы уже работаете в этой экосистеме.

Suno умерла?

Нет. Заголовок «Suno убили» — красиво, но не точно.

Suno — это сервис, а не модель. Вы открываете сайт, пишете «весёлый поп-рок про кота» и через минуту получаете готовый трек. Никакой установки, никаких GPU, никаких конфигов.

ACE-Step — это модель, которую нужно скачать, установить, настроить. Результат зависит от вашего промта и от того, какой seed выпадет. Для музыканта или разработчика, который готов экспериментировать — отлично. Для человека, который хочет «нажал кнопку — получил песню» — Suno по-прежнему проще.

Но для тех, кому важна приватность (данные не уходят в облако), кастомизация (LoRA на своём стиле) и отсутствие подписки — ACE-Step 1.5 меняет расклад. Впервые можно получить коммерческое качество генерации музыки полностью локально и бесплатно.

GitHub: github.com/ace-step/ACE-Step-1.5 Демо: huggingface.co/spaces/ACE-Step/Ace-Step-v1.5

Пробовали генерировать музыку с помощью AI? Для каких задач это реально полезно, а где пока рано?

Автор: nlaik

Источник

Запись добавлена: 07.04.2026 в 17:02
Оставлено в

Бесплатная нейросеть для генерации музыки локально: ACE-Step 1.5 обходит Suno на бенчмарках

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Почему это важно

Архитектура: LM + DiT

Цифры

Что модель умеет кроме text-to-music

Что реально не работает (из limitations самих авторов)

Как попробовать

Suno умерла?

Советуем прочесть:

Бесплатная нейросеть для генерации музыки локально: ACE-Step 1.5 обходит Suno на бенчмарках

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Почему это важно

Архитектура: LM + DiT

Цифры

Что модель умеет кроме text-to-music

Что реально не работает (из limitations самих авторов)

Как попробовать

Suno умерла?

Советуем прочесть: