Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка
Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.
От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3
Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи (speech-to-text, STT), и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота.
Радар для прослушки телефона с трёх метров
Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.
Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini
Привет HabrСделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдётПонимает контекст беседы и не требует объяснять ему каждую детальЗнает какой сейчас год и точное время и учитывает это при поиске информации и при ответахИмеет характер и помнит, кто и как к нему относится в этом чатеРасшифровывает голосовые сразу для всего чата
GigaAM-v3: открытая SOTA-модель распознавания речи на русском
В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;
Про технологии: Нейросети: +1 в команде, часть 1
Авторы статьи: Михаил Кургузов, Владислава ГузаКоротко о насПривет, Хабр! Мы — сотрудники команды локализации и переводов в структуре подразделения, которое оказывает услуги по внедрению программных продуктов. Помогаем внедрять информационные системы и сервисы: осуществляем их локализацию, а также предоставляем обучение и поддержку на языке пользователя.Цель статьиВ этой статье мы хотим рассказать вам о большом проекте по подготовке и локализации обучающих материалов для открытия розничных магазинов Спортмастер в Узбекистане.

