- BrainTools - https://www.braintools.ru -

Google DeepMind выпустила Gemini 3.1 Flash TTS с управлением голосом через текст

Google DeepMind выпустила Gemini 3.1 Flash TTS с управлением голосом через текст - 1

Google DeepMind представила новую модель синтеза речи — Gemini 3.1 Flash TTS, сделав акцент на управляемости и гибкости генерации.

Главная фишка — Audio Tags. Это текстовые команды прямо внутри промпта, с помощью которых можно задавать стиль, эмоцию [1], темп и подачу речи. По сути, пользователь не просто генерирует голос, а «режиссирует» озвучку через текст.

Google DeepMind выпустила Gemini 3.1 Flash TTS с управлением голосом через текст - 2

Помимо этого, модель получила:

• более естественное и плавное звучание

• поддержку 70+ языков, включая русский

• встроенную маркировку аудио через SynthID, чтобы отличать синтезированную речь от реальной

По качеству модель сразу вошла в топ: на бенчмарке Artificial Analysis TTS Arena она заняла 2-е место с Elo-рейтингом 1211, уступив только Inworld TTS 1.5 Max и обогнав ElevenLabs v3.

Доступ к Gemini 3.1 Flash TTS уже открыт в формате preview через Gemini API и Google AI Studio, для бизнеса — через Vertex AI. В ближайшее время модель также появится в пользовательских продуктах вроде Google Vids.

Это ещё один шаг к тому, чтобы голос в ИИ стал не просто функцией, а полноценным инструментом управления — почти как работа с актёром, только через промпт.


Делегируйте часть рутинных задач вместе с BotHub! [2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [3] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник [4]

Автор: cognitronn

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28914

URLs in this post:

[1] эмоцию: http://www.braintools.ru/article/9540

[2] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=OPENAI_PLANS

[3] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[4] Источник: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

[5] Источник: https://habr.com/ru/companies/bothub/news/1024234/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1024234

www.BrainTools.ru

Rambler's Top100