speaker verification.

Часть 6: Безопасность и приватность в голосовом управлении — как защитить умный дом от утечек и взломов

От диплома до продакшена: Как я создавал архитектуру ИИ-проекта для…Автор: Алексей Бобрешов, руководитель отдела искусственного интеллекта в федеральном холдинге Категория: Искусственный интеллект, безопасность, умный дом, приватность *Это продолжение серии статей.Введение: Ошибки, которые я осознал (слишком поздно - нет, нет ничего слишком, есть цена ошибки)Когда я начинал работу над дипломным проектом «Умный дом» в 2020–2021 годах, моя голова была забита другими вопросами:Как добиться точности распознавания выше 90%?

продолжить чтение

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

продолжить чтение

Speaker Recognition. Как искать человека по голосу

Приветствую, Хабр! В этой статье мы поговорим про задачу Speaker Recognition. О том, как работает такая система, как мы ее оцениваем. И хотя речь пойдет про распознавание человека по голосу, этот же концепт можно использовать и для других биометрических систем, в частности, распознавание лиц.Metric LearningВ основе такой системы лежит ML-модель (как правило, нейроночка), которая принимает на вход участок голоса и выдает вектор-признак голоса (feature vector или voice embedding). Причем участок голоса может быть как фиксированной длины, так и динамической. Это в большей степени зависит от архитектуры модели, а также от датасета.

продолжить чтение