- BrainTools - https://www.braintools.ru -

Всё шло к этому. Мы решили [1] задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали [2]насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали [3]синтез для 20 языков России и стран СНГ.
Вы уже много раз упоминали [4], что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.
Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).
Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.
Выбор пал на модель v5_cis_base_nostress из релиза [3] по следующим причинам:
Она поддерживает 20 популярных языков России и СНГ;
Мы точно уверены в лицензии этой модели, т.к. она целиком и полностью сделана на наших данных;
Она подразумевает “обязательность” (можно конечно не ставить, но звучать будет так себе, будто язык заплетается) простановки ударения только на славянских языках (русский, украинский, белорусский). На остальных языках – модель “сама” ставит ударение. Плюсы и минусы такого подхода расписаны в оригинальной статье;
В идеальных условиях модель генерирует порядка 100 секунд аудио в секунду, что позволяет её использовать и для синтеза и для более требовательных к задержке кейсов;
В модели присутствуют одни и те же дикторы на своём родном языке и на русском языке.
Есть следующие моменты, которые мы планируем править в следующих релизах:
Пока омографы не завезли в инсталлятор. Думаем как лучше сделать интерфейс;
Ударения и буква ё автоматически проставляются моделью-акцентором. Если нужно проставить вручную, ударение ставится так к+ошка;
У интерфейса есть некоторые моменты, связанные с отзывчивостью, мы планируем поработать над этим;
Отсутствует поддержка омографов для всех языков и явной проставки ударений для языков кроме славянских;
Акценторы сделаны на базе словарей из 4M, 3M и 2M слов для русского, украинского и белорусского языков соответственно;
Пока не до конца использованы нативные возможности модели по управлению высотой и скоростью речи;
Ряд мелких недочётов.
Самый простой способ следующий:
Зайти на страничку [5], скачать .exe файл, установить;
Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке [6], но у вас может быть своя любимая.
Системные требования:
64-битная Windows;
Мы тестировали на Windows 10 и Windows 11;
Windows XP скорее всего не будет работать, Windows 7 не тестировали.
Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание [7], что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза – как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).
В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка – вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.
Ссылка для скачивания .exe релиза – https://github.com/snakers4/silero-models/releases/tag/v5.2 [5];
Программа Балаболка – https://www.cross-plus-a.com/ru/balabolka.html [6];
Наши модели для простановки ударений – https://github.com/snakers4/silero-stress [8];
Наши модели синтеза – https://github.com/snakers4/silero-models [9];
Новые модели опубликованные в рамках проекта – https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models [10];
Примеры [11]запуска моделей для языков России и СНГ;
Обновление [2]проекта silero-stress.
Автор: snakers4
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23884
URLs in this post:
[1] решили: https://habr.com/ru/articles/955130/
[2] попробовали : https://habr.com/ru/articles/969184/
[3] опубликовали : https://habr.com/ru/articles/968988/
[4] упоминали: https://habr.com/ru/articles/968988/comments/#comment_29166904
[5] страничку: https://github.com/snakers4/silero-models/releases/tag/v5.2
[6] Балаболке: https://www.cross-plus-a.com/ru/balabolka.html
[7] внимание: http://www.braintools.ru/article/7595
[8] https://github.com/snakers4/silero-stress: https://github.com/snakers4/silero-stress
[9] https://github.com/snakers4/silero-models: https://github.com/snakers4/silero-models
[10] https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models: https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models
[11] Примеры : https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts_cis.ipynb
[12] Источник: https://habr.com/ru/articles/981992/?utm_campaign=981992&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.