обработка аудио.

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Привет, Хабр!

Оставлено в

Часть 3: Архитектура нейросети для распознавания голосовых команд

Дорогие читатели!Продолжаю серию статей о моём дипломном проекте «Голосовое управление Умным домом». В Части 1 я рассказал о концепции и видении проекта, в Части 2 — о проектировании пользовательского опыта. В этой части я подробно разберу архитектуру нейронной сети, которая лежит в основе системы распознавания голосовых команд.Это техническая часть серии, где я покажу код, объясню выбор архитектуры и расскажу о технических решениях, которые позволили достичь точности 94.55% на проверочной выборке.

продолжить чтение

Оставлено в

Как мы научились определять продвинутые автоответчики

Как мы научились определять продвинутые автоответчикиГод назад мы начали использовать ASR для обработки записей телефонных звонков.TL;DR: вместо бинарных правил и end-to-end ML мы выбрали скоринговую систему поверх ASR (T-One): анализируем диалог и поведение, получаем ~98% точности при среднем времени обработки ~4.9 сек вместо 20+ сек на Whisper.Задача казалась простой: понять, ответил ли абонент сам или сработал автоответчик, и на основании этого корректно завершить звонок и вернуть деньги пользователю при неудаче.На практике всё оказалось сильно сложнее.

продолжить чтение

Оставлено в

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам.Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета AiConf X и HighLoad++ от «Онтико».

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

обработка аудио.

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Часть 3: Архитектура нейросети для распознавания голосовых команд

Как мы научились определять продвинутые автоответчики

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

обработка аудио.

Как я построил «аниме-завод»: систему, которая сама превращает эпизоды в YouTube Shorts

Часть 3: Архитектура нейросети для распознавания голосовых команд

Как мы научились определять продвинутые автоответчики

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?