обработка аудио.

Часть 3: Архитектура нейросети для распознавания голосовых команд

Дорогие читатели!Продолжаю серию статей о моём дипломном проекте «Голосовое управление Умным домом». В Части 1 я рассказал о концепции и видении проекта, в Части 2 — о проектировании пользовательского опыта. В этой части я подробно разберу архитектуру нейронной сети, которая лежит в основе системы распознавания голосовых команд.Это техническая часть серии, где я покажу код, объясню выбор архитектуры и расскажу о технических решениях, которые позволили достичь точности 94.55% на проверочной выборке.

продолжить чтение

Как мы научились определять продвинутые автоответчики

Как мы научились определять продвинутые автоответчикиГод назад мы начали использовать ASR для обработки записей телефонных звонков.TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper.Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче.На практике всё оказалось сильно сложнее.

продолжить чтение

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам.Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета AiConf X и HighLoad++ от «Онтико».

продолжить чтение

Rambler's Top100