Qwen запустила Qwen3-TTS-Flash: ИИ-голос в реальном времени

Китайская компания Qwen представила модель Qwen3-TTS-Flash ^[1], которая обещает вывести технологии синтеза речи на новый уровень. Система работает с задержкой всего 97 миллисекунд, что меньше, чем время моргания глаза. Такой показатель открывает возможность для создания голосовых ассистентов, которые будут реагировать ^[2] на пользователя в реальном времени, без искусственных пауз и задержек.

Модель поддерживает 14 голосов, каждый из которых обладает собственной интонацией и эмоциями ^[3]. Она способна работать с 10 языками, включая русский, что делает её универсальным инструментом для глобального применения. Разработчики подчёркивают, что Qwen3-TTS-Flash не только воспроизводит текст, но и умеет передавать тон, сарказм, радость или грусть, делая речь максимально естественной.

Применение технологии практически безгранично: от голосовых переводчиков и образовательных платформ до «оживших» персонажей в играх или виртуальных консультантов в сервисах. Ранее подобное качество синтеза речи было доступно только в офлайн-режиме с использованием мощного железа. Теперь же Qwen обещает вывести такие решения на уровень облачных и мобильных сервисов, что может кардинально изменить рынок голосовых интерфейсов.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News ^[4].

Автор: cognitronn

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19827

URLs in this post:

[1] Qwen3-TTS-Flash: https://huggingface.co/spaces/Qwen/Qwen3-TTS-Demo

[2] реагировать: http://www.braintools.ru/article/1549

[3] эмоциями: http://www.braintools.ru/article/9540

[4] BotHub AI News: https://t.me/bothub

[5] Источник: https://habr.com/ru/companies/bothub/news/949760/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949760

Нажмите здесь для печати.