mfcc.
Часть 3: Архитектура нейросети для распознавания голосовых команд
Дорогие читатели!Продолжаю серию статей о моём дипломном проекте «Голосовое управление Умным домом». В Части 1 я рассказал о концепции и видении проекта, в Части 2 — о проектировании пользовательского опыта. В этой части я подробно разберу архитектуру нейронной сети, которая лежит в основе системы распознавания голосовых команд.Это техническая часть серии, где я покажу код, объясню выбор архитектуры и расскажу о технических решениях, которые позволили достичь точности 94.55% на проверочной выборке.
Обработка аудио на ESP32
В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.Краткое описание алгоритма

