speaker verification.

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

продолжить чтение

Speaker Recognition. Как искать человека по голосу

Приветствую, Хабр! В этой статье мы поговорим про задачу Speaker Recognition. О том, как работает такая система, как мы ее оцениваем. И хотя речь пойдет про распознавание человека по голосу, этот же концепт можно использовать и для других биометрических систем, в частности, распознавание лиц.Metric LearningВ основе такой системы лежит ML-модель (как правило, нейроночка), которая принимает на вход участок голоса и выдает вектор-признак голоса (feature vector или voice embedding). Причем участок голоса может быть как фиксированной длины, так и динамической. Это в большей степени зависит от архитектуры модели, а также от датасета.

продолжить чтение

Rambler's Top100