Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.
В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в гигантских моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).
Как вы догадались, эта фича — это постановка вопросов. Если просуммировать основные текущие фичи:
-
Высокая скорость;
-
Поддержка SSML;
-
Автоматическая простановка ударений и омографов;
-
Установка через
torch.hub,pipи просто локально через торч; -
Доступны голоса
aidar,baya,kseniya,xenia(eugeneв модель с вопросами доедет чуть позже); -
Теперь есть поддержка 4 типов вопросов: специальные (с вопросительным словом), общие (с выделением какого-либо слова), альтернативные (“ты любишь рыбу или мясо?”) и вопросы-хвостики (“не так ли?”).
Для максимальной выразительности в общих вопросах настоятельно рекомендуется выделять интонационный центр звёздочками.
Послушаем примеры
Илья, общие вопросы:
Ксения, вопросы-хвостики:
Ксения, общие вопросы:
Например, вот эти аудио сгенерированы вот таким кодом:
Скрытый текст
import IPython.display as ipd
texts = [
'*Организаторы* прислали нам электронные билеты?',
'Организаторы *прислали* нам электронные билеты?',
'Организаторы прислали *нам* электронные билеты?',
'Организаторы прислали нам *электронные* билеты?',
'Организаторы прислали нам электронные *билеты*?'
]
for i, text in enumerate(texts):
audio = model.apply_tts(text=text, speaker='xenia')
ipd.display(ipd.Audio(audio, rate=48000))
Ксения, частные вопросы:
Про вопросы в русском языке
В русском языке существует три основные стратегии маркировки вопросов: грамматическая (порядок слов), лексическая (вопросительные слова, частицы) и просодическая (интонация).
Грамматическая стратегия в русской разговорной речи используется очень редко: обязательной инверсии для вопросов нет, и по порядку слов в предложении невозможно достоверно определить, вопрос это или нет.
Лексическая стратегия (через вопросительное слово и конструкции вроде “не так ли?” или “или”) — самая простая для синтеза, поскольку вопрос однозначно определяется на уровне текста, а просодический контур в целом не слишком отличается от повествовательного.
Однако эта стратегия не используется в общих вопросах (“Ты дома?”), которые в корпусах составляют примерно половину от всей массы вопросов. Просодическая стратегия является самой главной в русском языке и самой сложной для TTS: интонационный акцент может ставиться практически на любое слово, вне зависимости от его позиции или части речи, и от позиции акцента зависит смысл высказывания:
-
Он ПРИШЁЛ? (да, явился наконец-то);
-
ОН пришёл? (нет, пришла его кошка).
В итоге, для реализации русской вопросительной интонации в TTS оказывается недостаточно подать корпус вопросительных предложений. Для обучения модели необходима разметка на типы вопросов в зависимости от стратегии реализации, а также выделение слова, на которое падает просодический акцент.
Как использовать новую фичу?
Просто скачайте новую модель и пишите вопросы как обычно. Если вопрос общий, то для максимальной выразительности следует выделить интонационный центр звёздочками.
Для альтернативных, специальных или вопросов-хвостиков можно не указывать интонационный центр (если указать, будет лучше звучать).
Также добавился параметр intensity=3, отвечающий за “силу” интонации. Но мы рекомендуем его оставить по-умолчанию, то есть всегда 3. В будущем значение по-умолчанию может поменяться, как и сила выразительности. Сейчас 3 соответствует скорее нормальной интонации.
На практике, самые “сложные” общие вопросы (с интонационным центром) выглядят вот так:
texts = [
'*Организаторы* прислали нам электронные билеты?',
'Организаторы *прислали* нам электронные билеты?',
'Организаторы прислали *нам* электронные билеты?',
'Организаторы прислали нам *электронные* билеты?',
'Организаторы прислали нам электронные *билеты*?'
]
for i, text in enumerate(texts):
audio = model.apply_tts(text=text, speaker='xenia')
Пакет pip и примеры запуска
Мы уже писали про pip-пакет, pip install silero. Если использовать его, то минимальный код запуска выглядит уже совсем лаконично:
!pip install silero
from silero import silero_tts
model, example_text = silero_tts(language='ru',
speaker='v5_4_ru')
audio = model.apply_tts(text=example_text)
Полный код запуска, например с использованием torch.hub со всеми флагами уже выглядит вот так (подробнее можно потыкать в интерактивном ноутбучке):
import torch
language = 'ru'
model_id = 'v5_4_ru'
device = torch.device('cpu')
model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models',
model='silero_tts',
language=language,
speaker=model_id)
model.to(device) # gpu or cpu
sample_rate = 48000
speaker = 'xenia'
put_accent=True
put_yo=True
put_stress_homo=True
put_yo_homo=True
example_text = 'Меня зовут Лева Королев. Я из готов. И я уже готов открыть все ваши замки любой сложности!'
audio = model.apply_tts(text=example_text,
speaker=speaker,
sample_rate=sample_rate,
put_accent=put_accent,
put_yo=put_yo,
put_stress_homo=put_stress_homo,
put_yo_homo=put_yo_homo)
ssml_sample = """
<speak>
<p>
Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>.
Потом я начинаю говорить своим обычным голосом,
<prosody pitch="x-high"> а могу говорить тоном выше </prosody>,
или <prosody pitch="x-low">наоборот, ниже</prosody>.
Потом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody>
А еще я умею делать паузы любой длины, например, две секунды <break time="2000ms"/>.
<p>
Также я умею делать паузы между параграфами.
</p>
<p>
<s>И также я умею делать паузы между предложениями</s>
<s>Вот например как сейчас</s>
</p>
</p>
</speak>
"""
audio = model.apply_tts(ssml_text=ssml_sample,
speaker=speaker,
sample_rate=sample_rate)
Про омографы, скорость и размер модели можно подробнее прочитать в прошлой статье.
Вместо вывода
У нас недавно получилось добиться нетривиального прогресса по сбору данных для модели расстановки омографов, плюс в дополнение к вопросам мы также планируем добавить эмфазы (яркое выделение какого-то конкретного слова в повествовательном предложении).
Если у вас есть какие-то прикольные или оригинальные идеи насчёт улучшения открытого синтеза речи – будем рады обсудить в комментариях или в тикетах в репозитории. Вы также можете прислать свои данные для ударений и омографов – мы сделаем базовую библиотеку лучше.
Автор: snakers4


