распознавание речи.

Радар для прослушки телефона с трёх метров

Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.

продолжить чтение

Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini

Привет HabrСделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдётПонимает контекст беседы и не требует объяснять ему каждую детальЗнает какой сейчас год и точное время и учитывает это при поиске информации и при ответахИмеет характер и помнит, кто и как к нему относится в этом чатеРасшифровывает голосовые сразу для всего чата

продолжить чтение

GigaAM-v3: открытая SOTA-модель распознавания речи на русском

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;

продолжить чтение

Без интернета и шпионов: как мы собрали локального голосового ассистента

Облачные ассистенты вроде Алисы, Google Assistant и Siri давно стали привычными. Но у всех у них одни и те же слабые места: зависимость от быстрого интернета и риск утечки данных. И речь не только о персональной информации — дома нередко обсуждают темы, которые можно отнести к коммерческой или даже военной тайне. Неудивительно, что многим некомфортно говорить в присутствии микрофона, который каждое слово отправляет куда-то «в облако» (один из наших заказчиков прямо сказал: «никаких Алис в доме не будет»).

продолжить чтение

Про технологии: Нейросети: +1 в команде, часть 1

Авторы статьи:  Михаил Кургузов, Владислава ГузаКоротко о насПривет, Хабр! Мы — сотрудники команды локализации и переводов в структуре подразделения, которое оказывает услуги по внедрению программных продуктов. Помогаем внедрять информационные системы и сервисы: осуществляем их локализацию, а также предоставляем обучение и поддержку на языке пользователя.Цель статьиВ этой статье мы хотим рассказать вам о большом проекте по подготовке и локализации обучающих материалов для открытия розничных магазинов Спортмастер в Узбекистане.

продолжить чтение

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

продолжить чтение

Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%

OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime

продолжить чтение

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно. 

продолжить чтение

Есть ли жизнь без споттера? Как мы внедряли быстрые команды в умные устройства Sber

Привет, Хабр! 

продолжить чтение

Голос клиента на автомате: разбираем, как анализировать звонки с помощью речевой аналитики и LLM

Привет, Хабр! Это Катя Саяпина, менеджер продукта МТС Exolve.Самую честную обратную связь бизнес получает не из опросов, а из живых разговоров — когда клиент сам звонит и рассказывает, что его раздражает, что не работает или чего не хватает. Мы хотим извлекать эту ценность автоматически.Сегодня покажу, как собрать простую систему фонового анализа звонков. Она забирает расшифровки разговоров через API МТС Exolve, отправляет их в GigaChat для обработки, а результаты сохраняет в базу SQLite.Архитектура и точка входа

продолжить чтение

12
Rambler's Top100