VoxCPM2: открытая 2B TTS-модель на 30 языках

VoxCPM2 ^[1] – крупное обновление открытой системы синтеза речи VoxCPM. Модель ^[2] обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).

За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.

THUNLP – одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.

OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.

В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.

Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе – аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.

Обновление добавило 2 новые возможности

Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию ^[3] и темп – никакого референсного аудио не нужно.
Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.
Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.

Тесты

На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.

На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.

В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.

Модель потребляет около 8 ГБ VRAM

Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио – около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM ^[4] этот показатель снижается до 0.13 (подходит для стриминга в реальном времени).

Есть скрипты и гайд ^[5] для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5-10 минут аудио и 20 ГБ VRAM.

Пример генерации аудио на демо-спейсе HF без клонирования и постобработке – в видеофайле поста.

Лицензирование: Apache 2.0 License.

Страница проекта ^[1]
Документация ^[6]
Модель ^[2]
Demo ^[7]
GitHub ^[8]

Делегируйте часть рутинных задач вместе с BotHub ^[9]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[10] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: mefdayy

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28453

URLs in this post:

[1] VoxCPM2: https://openbmb.github.io/voxcpm2-demopage/

[2] Модель: https://huggingface.co/openbmb/VoxCPM2

[3] эмоцию: http://www.braintools.ru/article/9540

[4] Nano-vLLM: https://github.com/a710128/nanovllm-voxcpm

[5] гайд: https://voxcpm.readthedocs.io/en/latest/finetuning/finetune.html

[6] Документация: https://voxcpm.readthedocs.io/en/latest/

[7] Demo: https://huggingface.co/spaces/openbmb/VoxCPM-Demo

[8] GitHub: https://github.com/OpenBMB/VoxCPM

[9] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=VOXCPM2:_OPEN_2B_TTS_MODEL_IN_30_LANGUAGES

[10] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[11] Источник: https://habr.com/ru/companies/bothub/news/1020670/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1020670

Нажмите здесь для печати.