- BrainTools - https://www.braintools.ru -

Новый релиз публичного детектора голоса Silero VAD v6

Историческое сравнение версий

Историческое сравнение версий

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут [1]). А вот что стало лучше в этот раз:

  • Все прошлые фишки и улучшения [1]были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);

  • Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);

  • Был изменён принцип тренировки, что сделало детектор более устойчивым;

  • Общее число ошибок на мульти-доменной валидации было снижено на 11%;

  • На шумных данных число ошибок было снижено на 16%;

  • Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.

Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.

Сравнение с аналогами

Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка – портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:

Сравнение с основными аналогами

Сравнение с основными аналогами

Больше всего проблем с шумными данными [2] (методология по ссылке):

Модель

ESC-50

Приватный шум

Webrtc

0

0.15

Silero v4

0.51

0.24

Silero v3

0.51

0.06

Unnamed commercial VAD

0.53

0.18

Silero v5

0.61

0.44

TenVad

0.42

0.47

Silero v6

0.65

0.53

Цитирование и аффилиации

Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать детектор можно следующим образом:

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

Ссылки

  1. Репозиторий – https://github.com/snakers4/silero-vad [3];

  2. Более подробное описание изменений – https://github.com/snakers4/silero-vad/releases/tag/v6.0 [4];

  3. Метрики – https://github.com/snakers4/silero-vad/wiki/Quality-Metrics [5];

Автор: snakers4

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18736

URLs in this post:

[1] тут: https://habr.com/ru/articles/825208/

[2] данными: https://github.com/snakers4/silero-vad/wiki/Quality-Metrics#accuracy-score

[3] https://github.com/snakers4/silero-vad: https://github.com/snakers4/silero-vad

[4] https://github.com/snakers4/silero-vad/releases/tag/v6.0: https://github.com/snakers4/silero-vad/releases/tag/v6.0

[5] https://github.com/snakers4/silero-vad/wiki/Quality-Metrics: https://github.com/snakers4/silero-vad/wiki/Quality-Metrics

[6] Источник: https://habr.com/ru/articles/940750/?utm_campaign=940750&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100