Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Всем привет! Команда Qwen от Alibaba ^[1] выложила в открытый доступ Qwen3-TTS ^[2] — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me ^[3], блогер и просто фанат нейросетей. А еще я сам собрал портативную версию Qwen3-TTS под win11 и успел её как следует протестировать.

Главная особенность системы в том, что она умеет не только озвучивать текст готовыми голосами, но и клонировать любой голос по короткому образцу, а ещё создавать новые голоса по текстовому описанию.

И всё это с нативной поддержкой русского языка.

Как это работает

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия - 2

В основе Qwen3-TTS лежит End-to-End архитектура с дискретным многоканальным токенизатором речи (12.5 Гц, 16 слоёв). В отличие от традиционных систем, которые работают по цепочке “текст → фонемы → звук” и теряют информацию на каждом этапе, здесь всё обрабатывается одним махом.

Такой подход полностью исключает эффект “роботизированности” и каскадные ошибки ^[4] генерации. Модель сохраняет интонации, эмоции ^[5] и особенности тембра.

Работает очень быстро даже на старшей модели 1.7B.

Поддерживаемые языки

Qwen3-TTS работает с 10 языками:

Китайский (включая пекинский и сычуаньский диалекты)
Английский
Японский
Корейский
Немецкий
Французский
Русский
Португальский
Испанский
Итальянский

Возможности

Синтез с готовыми голосами (CustomVoice)

9 встроенных голосов разных типов — молодые и зрелые, мужские и женские. Можно управлять эмоциями и стилем речи через текстовые инструкции.

Создание голоса по описанию (VoiceDesign)

Описываете словами, какой голос нужен — модель его генерирует. Например: “молодой женский голос, игривый, с высоким тоном”. Лучше работает если писать промпты на голос на английском.

Клонирование голоса (Voice Clone)

Загружаете аудио от 3 секунд — получаете синтез этим голосом. По бенчмаркам качество клонирования превосходит ElevenLabs и MiniMax по показателям сходства спикеров. Оно и правда веского качества, уровень VibeVoice ^[6], но гораздо легче по ресурсам.

Multi-Speaker режим

Создание диалогов и подкастов с несколькими спикерами одновременно (до 4 голосов).

Можно эмулировать разговор между друзьями, актерами, персонажами из игры, все теперь ограничивается только вашей фантазией.

Кому пригодится

Создателям контента — озвучка роликов, подкастов, стримов.

Разработчикам игр — озвучка персонажей без найма актёров, особенно актуально для инди.

Аудиокнигам — разные голоса для персонажей.

Автоматизации — голосовые уведомления, IVR-системы, ассистенты.

Как попробовать

Онлайн-демо

Тут в демо меньше возможностей и нет локализации, но тоже отлично работает.

Hugging Face Demo — https://huggingface.co/spaces/Qwen/Qwen3-TTS ^[7]

Официальный GitHub

Можно попробовать установить самостоятельность с гитхаб, но это потребует опыта ^[8] и навыков.

GitHub: https://github.com/QwenLM/Qwen3-TTS ^[9]

API

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия - 3

Официальное API от Alibaba для production-интеграции.

Ссылка: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime ^[10]

Портативная версия

Я с каналом Нейро-Софт подготовил ^[11]улучшенную портативную сборку Qwen3-TTS Portable PRO, видео выше как раз из неё и записаны. А еще там:

Русифицированный интерфейс
Установка в один клик (install.bat)
50+ готовых голосов в комплекте
700+ дополнительных голосов для скачивания из интерфейса
Multi-Speaker режим до 4 спикеров
Поддержка NVIDIA GPU и CPU

Скачать: https://github.com/timoncool/Qwen3-TTS_portable_rus ^[12]

Системные требования

NVIDIA GPU с 8+ ГБ видеопамяти (или CPU, но медленнее)
Windows 10/11 64-bit
16 ГБ оперативной памяти ^[13]
20 ГБ свободного места на диске

Текущие ограничения

Ударения иногда расставляются неправильно
С длинными текстами могут быть проблемы
Инструкции для VoiceDesign лучше писать на английском

Распакуйте в корень диска (путь без кириллицы), запустите install.bat. Модели скачаются при первом запуске. А если будут сложности в установкой в посте в канале ^[11] найдете версию с уже установленным env (окружением).

Я рассказываю больше о нейросетях у себя на YouTube ^[14], в Телеграм ^[15]и на Бусти ^[16]. Буду рад вашей подписке и поддержке. Ну и на канал Нейро-Софт ^[17] тоже подпишитесь, чтобы не пропустить полезные репаки. Всех обнял и удачных генераций!

Автор: timonin

Источник ^[18]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24701

URLs in this post:

[1] Qwen от Alibaba: https://qwen.ai/blog?id=qwen3tts-0115

[2] Qwen3-TTS: https://huggingface.co/collections/Qwen/qwen3-tts

[3] ArtGeneration.me: https://ArtGeneration.me

[4] ошибки: http://www.braintools.ru/article/4192

[5] эмоции: http://www.braintools.ru/article/9540

[6] VibeVoice: https://t.me/neuroport/466

[7] https://huggingface.co/spaces/Qwen/Qwen3-TTS: https://huggingface.co/spaces/Qwen/Qwen3-TTS

[8] опыта: http://www.braintools.ru/article/6952

[9] https://github.com/QwenLM/Qwen3-TTS: https://github.com/QwenLM/Qwen3-TTS

[10] https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-realtime

[11] подготовил : https://t.me/neuroport/573

[12] https://github.com/timoncool/Qwen3-TTS_portable_rus: https://github.com/timoncool/Qwen3-TTS_portable_rus

[13] памяти: http://www.braintools.ru/article/4140

[14] YouTube: https://www.youtube.com/@nerual_dreming

[15] Телеграм : https://t.me/nerual_dreming

[16] Бусти: https://boosty.to/neuro_art

[17] Нейро-Софт: https://t.me/neuroport

[18] Источник: https://habr.com/ru/articles/988670/?utm_campaign=988670&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.