распознавание речи.

Whisper больше не нужен? Обзор VibeVoice ASR от Microsoft — часовая транскрипция, диаризация, hotwords и портативка

Всем привет! Команда Microsoft Research выложила в открытый доступ VibeVoice-ASR — нейросетевую модель для распознавания речи с диаризацией (разделением) спикеров. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.Меня зовут Илья, я основатель сервиса для генерации изображений ArtGeneration.me, блогер и просто фанат нейросетей. А ещё я собрал портативную версию VibeVoice ASR под Windows и успел её как следует протестировать.

продолжить чтение

Как прикрутить нейросеть к SDR: распознавание речи в GNU Radio

продолжить чтение

Голос и микроконтроллер ESP32

Картинка: freepik.com - vecstock

продолжить чтение

От голосовых к тексту: делаем Telegram-бота для расшифровки аудио на модели от СБЕР — GigaAM-v3

Привет, Хабр! Недавно Сбер выкатил новые модели распознавания речи (speech-to-text, STT), и мне захотелось проверить их не в абстрактном демо, а в реальном сценарии. В этой статье я расскажу о практическом кейсе – разработке Telegram-бота, который преобразует голосовые сообщения в текст. Посмотрим, на что способна новая отечественная модель GigaAM-v3, и соберём на её основе расширяемого Telegram-бота.

продолжить чтение

Радар для прослушки телефона с трёх метров

Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.

продолжить чтение

Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini

Привет HabrСделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдётПонимает контекст беседы и не требует объяснять ему каждую детальЗнает какой сейчас год и точное время и учитывает это при поиске информации и при ответахИмеет характер и помнит, кто и как к нему относится в этом чатеРасшифровывает голосовые сразу для всего чата

продолжить чтение

GigaAM-v3: открытая SOTA-модель распознавания речи на русском

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;

продолжить чтение

Без интернета и шпионов: как мы собрали локального голосового ассистента

Облачные ассистенты вроде Алисы, Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет»).

продолжить чтение

Про технологии: Нейросети: +1 в команде, часть 1

Авторы статьи:  Михаил Кургузов, Владислава ГузаКоротко о насПривет, Хабр! Мы — сотрудники команды локализации и переводов в структуре подразделения, которое оказывает услуги по внедрению программных продуктов. Помогаем внедрять информационные системы и сервисы: осуществляем их локализацию, а также предоставляем обучение и поддержку на языке пользователя.Цель статьиВ этой статье мы хотим рассказать вам о большом проекте по подготовке и локализации обучающих материалов для открытия розничных магазинов Спортмастер в Узбекистане.

продолжить чтение

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

продолжить чтение

123
Rambler's Top100