От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3
Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи (speech-to-text, STT), и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота.
Plaud анонсировала новый умный диктофон Note Pro
Компания Plaud анонсировала обновлённую версию своего умного диктофона размером с кредитную карту — Plaud Note Pro, пишет The Verge.
Исследователи представили технологию прослушки смартфонов с помощью радаров автопилотов
Исследователи из Университета штата Пенсильвания обнаружили, что вибрации динамика внутри телефона при разговоре можно уловить радарным датчиком автопилота автомобиля. Они смогли преобразовать эти вибрации в аудио и расшифровать их с помощью искусственного интеллекта.
FFmpeg добавит функцию расшифровки аудио через OpenAI Whisper
Стало известно, что мультимедийный инструмент FFmpeg получит встроенную возможность автоматической расшифровки речи, используя искусственный интеллект
ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)
В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…
На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта
Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать. Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?На помощь приходят облачные сервисы: транскрибация,
ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)
Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами.

