Новый курс Практикума PRO: освойте полный стек обработки аудиоданных

Речевые технологии лежат в основе целого класса продуктов: от голосовых ассистентов и расшифровщиков аудио до сервисов озвучки контента. На курсе «Аудиоанализ, распознавание и генерация речи» ^[1] от Яндекс Практикума PRO освоите инженерную базу для работы с ними — создадите собственный сервис и научитесь обучать и дообучать речевые модели под конкретные задачи.

Курс подойдёт инженерам машинного обучения ^[2] и тем, кто уже знаком с обработкой естественного языка (NLP).

Что освоите

Работу со звуком. Научитесь превращать аудиосигнал в числовые представления — спектрограммы и частотные признаки — и строить на их основе классификаторы.
Распознавание речи. Пройдёте путь от классических архитектур до современных трансформерных моделей — Whisper и других. Научитесь настраивать декодирование и оценивать качество.
Дообучение под свои задачи. Разберётесь, как адаптировать большие речевые модели — HuBERT и другие — под конкретный домен и данные.
Синтез речи. Соберёте конвейер для обработки аудио. Поработаете с акустической моделью FastSpeech и нейросетевым вокодером HiFi-GAN, научитесь управлять характеристиками голоса.
Оптимизацию и выполнение модели на новых данных (инференс). Экспортируете всё в компактный формат ONNX, ускорите работу на видеокарте и соберёте готовый сервис.

Два уровня погружения — под разные цели

Базовый тариф рассчитан на три месяца — освоите стек для обработки аудиоданных, положите четыре проекта в портфолио. Поможет разобраться в технологии и забрать навыки в работу.
Расширенный тариф длится пять месяцев — добавите восемь проектов и глубоко изучите обработку естественного языка (NLP): языковые модели, работу с текстом и интеграцию с речевыми системами. Поможет сменить специализацию и закрепиться в роли.

Как устроено обучение

Нагрузка — около 10 часов в неделю, учёба разбита на спринты. В каждом есть теория и работа над проектами на облачных машинах с графическими процессорами (GPU).

Учиться можно в любое время, главное — успевать к срокам сдачи, чтобы получить обратную связь от опытных инженеров. Если поймёте, что нужен свой темп, — можно перейти на трек без дедлайнов.

Ближайший старт — 27 августа и 24 сентября. А бесплатный первый модуль ^[1] можно пройти уже сейчас — освежите базу по нейросетям и посмотрите, как устроена платформа, прежде чем нырять в основное обучение.

Автор: kris-up

Источник ^[3]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/29432

URLs in this post:

[1] «Аудиоанализ, распознавание и генерация речи»: https://practicum.yandex.ru/audio-analysis/?utm_source=content&utm_medium=media&utm_campaign=habr_media_RF_iskusstvennyj-intellekt_audiAn_b2c_Article-news_None_obrabotka-audio&utm_content=27-04-26&utm_term=cm-pro

[2] обучения: http://www.braintools.ru/article/5125

[3] Источник: https://habr.com/ru/companies/yandex_praktikum/news/1027028/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1027028

Нажмите здесь для печати.