VoxCPM2: открытая 2B TTS-модель на 30 языках. llm.. llm. OpenBMB.. llm. OpenBMB. THUNLP.. llm. OpenBMB. THUNLP. VoxCPM2.. llm. OpenBMB. THUNLP. VoxCPM2. Блог компании BotHub.. llm. OpenBMB. THUNLP. VoxCPM2. Блог компании BotHub. ИИ.. llm. OpenBMB. THUNLP. VoxCPM2. Блог компании BotHub. ИИ. ии и машинное обучение.. llm. OpenBMB. THUNLP. VoxCPM2. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект.. llm. OpenBMB. THUNLP. VoxCPM2. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение.. llm. OpenBMB. THUNLP. VoxCPM2. Блог компании BotHub. ИИ. ии и машинное обучение. искусственный интеллект. Машинное обучение. мультиязычные аудиоданные.

VoxCPM2 – крупное обновление открытой системы синтеза речи VoxCPM. Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).

VoxCPM2: открытая 2B TTS-модель на 30 языках - 1

За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.

THUNLP – одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.

OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.

В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.

Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе – аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.

Обновление добавило 2 новые возможности

  • Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп – никакого референсного аудио не нужно.

  • Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.

  • Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.

Тесты

На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.

На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.

В задаче генерации голоса по описанию модель набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.

Модель потребляет около 8 ГБ VRAM

Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио – около 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот показатель снижается до 0.13 (подходит для стриминга в реальном времени).

Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5-10 минут аудио и 20 ГБ VRAM.

Пример генерации аудио на демо-спейсе HF без клонирования и постобработке – в видеофайле поста.

Лицензирование: Apache 2.0 License.

Страница проекта
Документация
Модель
Demo
GitHub


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: mefdayy

Источник