Новый релиз публичного детектора голоса Silero VAD v6. onnx.. onnx. Open source.. onnx. Open source. pypi.. onnx. Open source. pypi. python.. onnx. Open source. pypi. python. PyTorch.. onnx. Open source. pypi. python. PyTorch. silero.. onnx. Open source. pypi. python. PyTorch. silero. voice activity detection.. onnx. Open source. pypi. python. PyTorch. silero. voice activity detection. голосовое управление.. onnx. Open source. pypi. python. PyTorch. silero. voice activity detection. голосовое управление. голосовой помощник.. onnx. Open source. pypi. python. PyTorch. silero. voice activity detection. голосовое управление. голосовой помощник. детектор голоса.
Историческое сравнение версий

Историческое сравнение версий

На Хабре уже было аж 3 статьи про развитие нашего публичного детектора голоса Silero VAD (последняя тут). А вот что стало лучше в этот раз:

  • Все прошлые фишки и улучшения были сохранены в этой версии (скорость, работа с большим количеством языков, и т.д.);

  • Был опубликован pip-пакет (благодарность комьюнити, всего сейчас порядка 250-300к скачиваний в месяц);

  • Был изменён принцип тренировки, что сделало детектор более устойчивым;

  • Общее число ошибок на мульти-доменной валидации было снижено на 11%;

  • На шумных данных число ошибок было снижено на 16%;

  • Разные мелкие доработки, примеры и обёртки на разных языках от сообщества, возможность использовать ретроспективу старых версий детектора через GitHub.

Путь опять проделан огромный, опять все изменения умещаются над катом Хабра.

Сравнение с аналогами

Относительно недавно появился новый детектор голоса TenVAD. Его основная фишка – портативность. Он напрямую построен на использовании библиотеки Aten, минуя PyTorch или ONNX. Но вот с качеством есть проблемы:

Сравнение с основными аналогами

Сравнение с основными аналогами

Больше всего проблем с шумными данными (методология по ссылке):

Модель

ESC-50

Приватный шум

Webrtc

0

0.15

Silero v4

0.51

0.24

Silero v3

0.51

0.06

Unnamed commercial VAD

0.53

0.18

Silero v5

0.61

0.44

TenVad

0.42

0.47

Silero v6

0.65

0.53

Цитирование и аффилиации

Детектор создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать детектор можно следующим образом:

@misc{Silero VAD,
  author = {Silero Team},
  title = {Silero VAD: pre-trained enterprise-grade Voice Activity Detector (VAD), Number Detector and Language Classifier},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/snakers4/silero-vad}},
  commit = {insert_some_commit_here},
  email = {hello@silero.ai}
}

Ссылки

  1. Репозиторий – https://github.com/snakers4/silero-vad;

  2. Более подробное описание изменений – https://github.com/snakers4/silero-vad/releases/tag/v6.0;

  3. Метрики – https://github.com/snakers4/silero-vad/wiki/Quality-Metrics;

Автор: snakers4

Источник

Rambler's Top100