расшифровка аудио.

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3

Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи (speech-to-text, STT), и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота.

продолжить чтение

Оставлено в

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

Meta представила

продолжить чтение

Оставлено в

Plaud анонсировала новый умный диктофон Note Pro

Компания Plaud анонсировала обновлённую версию своего умного диктофона размером с кредитную карту — Plaud Note Pro, пишет The Verge.

продолжить чтение

Оставлено в

Исследователи представили технологию прослушки смартфонов с помощью радаров автопилотов

Исследователи из Университета штата Пенсильвания обнаружили, что вибрации динамика внутри телефона при разговоре можно уловить радарным датчиком автопилота автомобиля. Они смогли преобразовать эти вибрации в аудио и расшифровать их с помощью искусственного интеллекта.

продолжить чтение

Оставлено в

FFmpeg добавит функцию расшифровки аудио через OpenAI Whisper

Стало известно, что мультимедийный инструмент FFmpeg получит встроенную возможность автоматической расшифровки речи, используя искусственный интеллект

продолжить чтение

Оставлено в

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…

продолжить чтение

Оставлено в

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать. Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?На помощь приходят облачные сервисы: транскрибация,

продолжить чтение

Оставлено в

ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)

Сегодня нас не удивишь тем, что нейросеть за пару секунд расшифровывает двухчасовую лекцию или превращает аудиозаметку в аккуратный текст с заголовками и абзацами. Мы живём в эпоху, где слова больше не нужно набирать вручную — достаточно просто их произнести. Остальное — за алгоритмами.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

расшифровка аудио.

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

Plaud анонсировала новый умный диктофон Note Pro

Исследователи представили технологию прослушки смартфонов с помощью радаров автопилотов

FFmpeg добавит функцию расшифровки аудио через OpenAI Whisper

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

ТОП-5 нейросетей для транскрибации аудио в текст (часть 1)

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

расшифровка аудио.