- BrainTools - https://www.braintools.ru -
На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут [1]). А вот что стало лучше в этот раз:
Все прошлые фишки и улучшения [1]были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);
Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);
Был изменён принцип тренировки, что сделало детектор более устойчивым;
Общее число ошибок на мульти-доменной валидации было снижено на 11%;
На шумных данных число ошибок было снижено на 16%;
Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.
Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.
Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка – портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:
Больше всего проблем с шумными данными [2] (методология по ссылке):
|
Модель |
ESC-50 |
Приватный шум |
|---|---|---|
|
Webrtc |
0 |
0.15 |
|
Silero v4 |
0.51 |
0.24 |
|
Silero v3 |
0.51 |
0.06 |
|
Unnamed commercial VAD |
0.53 |
0.18 |
|
Silero v5 |
0.61 |
0.44 |
|
TenVad |
0.42 |
0.47 |
|
Silero v6 |
0.65 |
0.53 |
Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать детектор можно следующим образом:
@misc{Silero VAD,
author = {Silero Team},
title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/snakers4/silero-vad}},
commit = {insert_some_commit_here},
email = {hello@silero.ai}
}
Репозиторий – https://github.com/snakers4/silero-vad [3];
Более подробное описание изменений – https://github.com/snakers4/silero-vad/releases/tag/v6.0 [4];
Метрики – https://github.com/snakers4/silero-vad/wiki/Quality-Metrics [5];
Автор: snakers4
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18736
URLs in this post:
[1] тут: https://habr.com/ru/articles/825208/
[2] данными: https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#accuracy-score
[3] https://github.com/snakers4/silero-vad: https://github.com/snakers4/silero-vad
[4] https://github.com/snakers4/silero-vad/releases/tag/v6.0: https://github.com/snakers4/silero-vad/releases/tag/v6.0
[5] https://github.com/snakers4/silero-vad/wiki/Quality-Metrics: https://github.com/snakers4/silero-vad/wiki/Quality-Metrics
[6] Источник: https://habr.com/ru/articles/940750/?utm_campaign=940750&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.