- BrainTools - https://www.braintools.ru -

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке - 1

Всё шло к этому. Мы решили [1] задачу омографов в русском языке (это был только первый релиз, но мы уже готовим большое расширение). Мы попробовали [2]насколько это физически возможно решить задачу ударения хотя бы для славянских языков (мы уже опубликовали модели-акценторы для русского, украинского и белорусского языков). Мы опубликовали [3]синтез для 20 языков России и стран СНГ.

Вы уже много раз упоминали [4], что неплохо бы завезти наш синтез в SAPI5-интерфейс. Звёзды сошлись, нам написал разработчик, который занимается разработкой таких интерфейсов для Windows и всё завертелось.

Теперь пришло время попробовать соединить это всё воедино в виде SAPI5-интерфейса для синтеза для Windows. Основная фишка тут получается в том, что наш синтез настолько быстрый, что его можно использовать как локальный синтез в Windows на CPU, так и как экранную читалку. И да, вы верно всё поняли. Это также значит, что оно из коробки будет работать с Балаболкой и другими подобными программами (и не будет требовать GPU).

Да, это только первый, по сути пробный, релиз нашего интерфейса. Будем признательны вам за обратную связь и комментарии. Мы сильно хотели успеть к новому году и сделать всем небольшой новогодний подарок! Надеюсь, что комьюнити оценит.

Выбор модели

Выбор пал на модель v5_cis_base_nostress из релиза [3] по следующим причинам:

  • Она поддерживает 20 популярных языков России и СНГ;

  • Мы точно уверены в лицензии этой модели, т.к. она целиком и полностью сделана на наших данных;

  • Она подразумевает “обязательность” (можно конечно не ставить, но звучать будет так себе, будто язык заплетается) простановки ударения только на славянских языках (русский, украинский, белорусский). На остальных языках – модель “сама” ставит ударение. Плюсы и минусы такого подхода расписаны в оригинальной статье;

  • В идеальных условиях модель генерирует порядка 100 секунд аудио в секунду, что позволяет её использовать и для синтеза и для более требовательных к задержке кейсов;

  • В модели присутствуют одни и те же дикторы на своём родном языке и на русском языке.

Текущие ограничения экранной читалки

Есть следующие моменты, которые мы планируем править в следующих релизах:

  • Пока омографы не завезли в инсталлятор. Думаем как лучше сделать интерфейс;

  • Ударения и буква ё автоматически проставляются моделью-акцентором. Если нужно проставить вручную, ударение ставится так к+ошка;

  • У интерфейса есть некоторые моменты, связанные с отзывчивостью, мы планируем поработать над этим;

  • Отсутствует поддержка омографов для всех языков и явной проставки ударений для языков кроме славянских;

  • Акценторы сделаны на базе словарей из 4M, 3M и 2M слов для русского, украинского и белорусского языков соответственно;

  • Пока не до конца использованы нативные возможности модели по управлению высотой и скоростью речи;

  • Ряд мелких недочётов.

Как попробовать?

Самый простой способ следующий:

  • Зайти на страничку [5], скачать .exe файл, установить;

  • Установить программу для озвучки текста, которая работает с SAPI5-интерфейсом. Я тестировал на Балаболке [6], но у вас может быть своя любимая.

Системные требования:

  • 64-битная Windows;

  • Мы тестировали на Windows 10 и Windows 11;

  • Windows XP скорее всего не будет работать, Windows 7 не тестировали.

Будем признательны вам за обратную связь, по сути это пробный релиз для сбора граблей. Обратите внимание [7], что языки в принципе можно смешивать и что один и тот же диктор присутствует по два раза – как бы на русском и на своём родном языке (у части дикторов русский тоже родной, или более родной, там зависит от человека).

Дисклеймер

В инсталляторе присутствуют реквизиты для добровольных донатов разработчику SAPI5-интерфейса. Если вам очень сильно поможет читалка – вы можете поддержать его напрямую. Обращаю также внимание, что человек не в последнюю очередь старался и для себя, т.к. является незрячим.

Ссылки

Автор: snakers4

Источник [12]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23884

URLs in this post:

[1] решили: https://habr.com/ru/articles/955130/

[2] попробовали : https://habr.com/ru/articles/969184/

[3] опубликовали : https://habr.com/ru/articles/968988/

[4] упоминали: https://habr.com/ru/articles/968988/comments/#comment_29166904

[5] страничку: https://github.com/snakers4/silero-models/releases/tag/v5.2

[6] Балаболке: https://www.cross-plus-a.com/ru/balabolka.html

[7] внимание: http://www.braintools.ru/article/7595

[8] https://github.com/snakers4/silero-stress: https://github.com/snakers4/silero-stress

[9] https://github.com/snakers4/silero-models: https://github.com/snakers4/silero-models

[10] https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models: https://github.com/snakers4/silero-models?tab=readme-ov-file#v5-cis-base-models

[11] Примеры : https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts_cis.ipynb

[12] Источник: https://habr.com/ru/articles/981992/?utm_campaign=981992&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100