- BrainTools - https://www.braintools.ru -
VoxCPM2 [1] – крупное обновление открытой системы синтеза речи VoxCPM. Модель [2] обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).

За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.
THUNLP – одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.
OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.
В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.
Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе – аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.
Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию [3] и темп – никакого референсного аудио не нужно.
Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.
Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.
На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.
На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.
В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.
Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио – около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM [4] этот показатель снижается до 0.13 (подходит для стриминга в реальном времени).
Есть скрипты и гайд [5] для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5-10 минут аудио и 20 ГБ VRAM.
Пример генерации аудио на демо-спейсе HF без клонирования и постобработке – в видеофайле поста.
Лицензирование: Apache 2.0 License.
Страница проекта [1]
Документация [6]
Модель [2]
Demo [7]
GitHub [8]
Делегируйте часть рутинных задач вместе с BotHub [9]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [10] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: mefdayy
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28453
URLs in this post:
[1] VoxCPM2: https://openbmb.github.io/voxcpm2-demopage/
[2] Модель: https://huggingface.co/openbmb/VoxCPM2
[3] эмоцию: http://www.braintools.ru/article/9540
[4] Nano-vLLM: https://github.com/a710128/nanovllm-voxcpm
[5] гайд: https://voxcpm.readthedocs.io/en/latest/finetuning/finetune.html
[6] Документация: https://voxcpm.readthedocs.io/en/latest/
[7] Demo: https://huggingface.co/spaces/openbmb/VoxCPM-Demo
[8] GitHub: https://github.com/OpenBMB/VoxCPM
[9] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=VOXCPM2:_OPEN_2B_TTS_MODEL_IN_30_LANGUAGES
[10] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim
[11] Источник: https://habr.com/ru/companies/bothub/news/1020670/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1020670
Нажмите здесь для печати.