
Google DeepMind представила новую модель синтеза речи — Gemini 3.1 Flash TTS, сделав акцент на управляемости и гибкости генерации.
Главная фишка — Audio Tags. Это текстовые команды прямо внутри промпта, с помощью которых можно задавать стиль, эмоцию, темп и подачу речи. По сути, пользователь не просто генерирует голос, а «режиссирует» озвучку через текст.

Помимо этого, модель получила:
• более естественное и плавное звучание
• поддержку 70+ языков, включая русский
• встроенную маркировку аудио через SynthID, чтобы отличать синтезированную речь от реальной
По качеству модель сразу вошла в топ: на бенчмарке Artificial Analysis TTS Arena она заняла 2-е место с Elo-рейтингом 1211, уступив только Inworld TTS 1.5 Max и обогнав ElevenLabs v3.
Доступ к Gemini 3.1 Flash TTS уже открыт в формате preview через Gemini API и Google AI Studio, для бизнеса — через Vertex AI. В ближайшее время модель также появится в пользовательских продуктах вроде Google Vids.
Это ещё один шаг к тому, чтобы голос в ИИ стал не просто функцией, а полноценным инструментом управления — почти как работа с актёром, только через промпт.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


