Радар для прослушки телефона с трёх метров
Современные технологии машинного обучения (ML) позволяют извлечь полезный сигнал из массива данных, который раньше считался просто шумом. Это открывает новые возможности для разведки и шпионажа, в том числе прослушки телефонов и слежки за гражданами.
Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini
Привет HabrСделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдётПонимает контекст беседы и не требует объяснять ему каждую детальЗнает какой сейчас год и точное время и учитывает это при поиске информации и при ответахИмеет характер и помнит, кто и как к нему относится в этом чатеРасшифровывает голосовые сразу для всего чата
GigaAM-v3: открытая SOTA-модель распознавания речи на русском
В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;
Про технологии: Нейросети: +1 в команде, часть 1
Авторы статьи: Михаил Кургузов, Владислава ГузаКоротко о насПривет, Хабр! Мы — сотрудники команды локализации и переводов в структуре подразделения, которое оказывает услуги по внедрению программных продуктов. Помогаем внедрять информационные системы и сервисы: осуществляем их локализацию, а также предоставляем обучение и поддержку на языке пользователя.Цель статьиВ этой статье мы хотим рассказать вам о большом проекте по подготовке и локализации обучающих материалов для открытия розничных магазинов Спортмастер в Узбекистане.
Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%
OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
Голос клиента на автомате: разбираем, как анализировать звонки с помощью речевой аналитики и LLM
Привет, Хабр! Это Катя Саяпина, менеджер продукта МТС Exolve.Самую честную обратную связь бизнес получает не из опросов, а из живых разговоров — когда клиент сам звонит и рассказывает, что его раздражает, что не работает или чего не хватает. Мы хотим извлекать эту ценность автоматически.Сегодня покажу, как собрать простую систему фонового анализа звонков. Она забирает расшифровки разговоров через API МТС Exolve, отправляет их в GigaChat для обработки, а результаты сохраняет в базу SQLite.Архитектура и точка входа

