
Команда Qwen официально выпустила Qwen3-TTS и полностью открыла всю линейку моделей, включая Base, CustomVoice и VoiceDesign. Это редкий случай, когда не только веса, но и вся экосистема вокруг TTS доступна без ограничений и закрытых API.
В релиз вошло пять моделей классов 0.6B и 1.8B. Они поддерживают сразу несколько ключевых сценариев. Во-первых, free-form Voice Design. Голос можно не просто клонировать, а буквально описывать словами, меняя тембр, манеру речи и характер. Во-вторых, полноценное клонирование голоса по коротким примерам. В-третьих, полный fine-tuning под конкретный домен, стиль или бренд.
Отдельного внимания заслуживает техническая часть. Qwen3-TTS использует 12Hz tokenizer, что дает сильную компрессию аудио без заметной деградации качества. Это снижает требования к памяти и ускоряет инференс, делая модели удобными не только для серверов, но и для локального запуска. Поддерживается 10 языков, а по внутренним метрикам команда заявляет SOTA-уровень на ряде тестов качества речи.
Контекст релиза важен не меньше самих характеристик. Еще недавно продвинутые TTS-решения с кастомными голосами и дизайном были доступны только через закрытые облачные сервисы. Qwen3-TTS фактически предлагает альтернативу, где можно обучать модель под свои задачи, экспериментировать с голосами и не зависеть от внешнего провайдера или тарифов.
Для разработчиков, студий и стартапов это означает появление полноценного open-source стека для работы с речью. Его можно встроить в продукты, локальные ассистенты, игровые проекты или корпоративные системы без юридических и технических ограничений. Судя по масштабу релиза, Qwen всерьез нацелены сделать open-source стандартом и в сегменте голосовых технологий.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


