диаризация.

Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка

Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.

продолжить чтение

На входе аудио, на выходе — саммари. Собираем локальный транскрибатор из бесплатного софта

Всем привет! Меня зовут Николай Луняка, и я, как и многие из вас, ежедневно утопаю в потоке информации. Количество аудиоконтента растёт в геометрической прогрессии, при этом его нужно ещё «переварить» и зафиксировать. Интереснейшие лекции хочется сохранить не только в памяти, но и в виде тезисов, а ещё есть подкасты, интервью, да и банальные голосовые заметки, надиктованные на бегу. Знакомая картина?На помощь приходят облачные сервисы: транскрибация,

продолжить чтение

Слушать некогда читать: где поставим запятую?

Узнаете, когда заглянете под кат.😉 Для затравочки: речь пойдёт про инструмент ЮMoney для транскрибации аудио с внутренних созвонов в тексты и про кое-что ещё для наших клиентов. 😎👇Меня зовут Макс, я аналитик в ЮMoney. Недавно перед моей командой стояло две цели:

продолжить чтение

Как мы транскрибируем аудио с внутренних созвонов в текст

Меня зовут Макс, я аналитик в ЮMoney. Недавно перед моей командой стояло две цели:● Повысить качество взаимодействия пользователя и бизнеса за счёт аналитики данных аудио.● Снизить время на рутину у коллег.Так родились два проекта 👇● 

продолжить чтение

Rambler's Top100