Qwen3-TTS. Большой open-source шаг в сторону голосовых технологий. ai.. ai. qwen.. ai. qwen. Блог компании BotHub.. ai. qwen. Блог компании BotHub. Будущее здесь.. ai. qwen. Блог компании BotHub. Будущее здесь. ИИ.. ai. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Qwen3-TTS. Большой open-source шаг в сторону голосовых технологий - 1

Команда Qwen официально выпустила Qwen3-TTS и полностью открыла всю линейку моделей, включая Base, CustomVoice и VoiceDesign. Это редкий случай, когда не только веса, но и вся экосистема вокруг TTS доступна без ограничений и закрытых API.

В релиз вошло пять моделей классов 0.6B и 1.8B. Они поддерживают сразу несколько ключевых сценариев. Во-первых, free-form Voice Design. Голос можно не просто клонировать, а буквально описывать словами, меняя тембр, манеру речи и характер. Во-вторых, полноценное клонирование голоса по коротким примерам. В-третьих, полный fine-tuning под конкретный домен, стиль или бренд.

Отдельного внимания заслуживает техническая часть. Qwen3-TTS использует 12Hz tokenizer, что дает сильную компрессию аудио без заметной деградации качества. Это снижает требования к памяти и ускоряет инференс, делая модели удобными не только для серверов, но и для локального запуска. Поддерживается 10 языков, а по внутренним метрикам команда заявляет SOTA-уровень на ряде тестов качества речи.

Контекст релиза важен не меньше самих характеристик. Еще недавно продвинутые TTS-решения с кастомными голосами и дизайном были доступны только через закрытые облачные сервисы. Qwen3-TTS фактически предлагает альтернативу, где можно обучать модель под свои задачи, экспериментировать с голосами и не зависеть от внешнего провайдера или тарифов.

Для разработчиков, студий и стартапов это означает появление полноценного open-source стека для работы с речью. Его можно встроить в продукты, локальные ассистенты, игровые проекты или корпоративные системы без юридических и технических ограничений. Судя по масштабу релиза, Qwen всерьез нацелены сделать open-source стандартом и в сегменте голосовых технологий.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100