Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Кому лень читать полностью
Language Dove: как я транскрибирую и перевожу фильмы
Я обожаю смотреть иностранные фильмы в оригинале.Во-первых, мне нравится расширять кругозор, погружаться в другую культуру, расшифровывать структуру разных языков, пополнять словарный запас.Во-вторых, мне просто нравится звучание некоторых языков - например, французского, датского, китайского.Также я работаю над сайтом по изучению языков Language Dove, а учить языки по фильмам - это очень эффективно.Так родился проект по генерации идеальных субтитров.Функциональность субтитров:Подсветка слов в момент произношения - для тренировки восприятия на слух
Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка
Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.
ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)
В первой части мы проверили три сервиса: AssemblyAI, Riverside и Teamlogs. Все они обещали точную и быструю транскрибацию, но на деле…

