Realtime API вышел из беты: OpenAI представила gpt-realtime и снизила цены на 20%
OpenAI сделала важный шаг для рынка голосовых интерфейсов: Realtime API официально вышел из бета-версии и теперь доступен всем разработчикам. Вместе с этим компания представила модель gpt-realtime
Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One
Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.
Голос клиента на автомате: разбираем, как анализировать звонки с помощью речевой аналитики и LLM
Привет, Хабр! Это Катя Саяпина, менеджер продукта МТС Exolve.Самую честную обратную связь бизнес получает не из опросов, а из живых разговоров — когда клиент сам звонит и рассказывает, что его раздражает, что не работает или чего не хватает. Мы хотим извлекать эту ценность автоматически.Сегодня покажу, как собрать простую систему фонового анализа звонков. Она забирает расшифровки разговоров через API МТС Exolve, отправляет их в GigaChat для обработки, а результаты сохраняет в базу SQLite.Архитектура и точка входа
T-one — открытая русскоязычная потоковая модель для телефонии
Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.
Пишем персонального AI-ассистента на Python
Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет:Слушать микрофонОпределять начало и конец речи с помощью VAD (Voice Activity Detection)Преобразовывать речь в текст через модель WhisperОтправлять запросы на локальный LLM для генерации ответаЧитать ответ вслух с помощью gTTSНачинать/останавливать запись по клавише пробел
Как я делал голосового ассистента на NLP и не сошел с ума
Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой статье разберём, как собрать своего кастомного ассистента с нуля на Python, используя современные NLP-инструменты. Без Siri, без Alexa, всё своё, родное.
Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году
Шопинг с использованием голоса уже не кажется чем-то удивительным. По данным опроса Департамента социальных исследований и консалтинга ВЦИОМ Андрей Даудрих, среди 63% россиян, которые использовали ИИ-инструменты в. 2024 году, 31% прибегали преимущественно к голосовым помощникам.
YouScriptor — ИИ стартап за выходные
Сервис перевода Youtube в текст YouScriptorЧестно сказать, меня весьма сокрушает то, что контент в интернете перешел из текста в видео. Читаю я довольно быстро и мне куда проще и бытрее окинуть страницу взглядом, чем пролистивыать видео на несколько десятков минут, пыстаясь поскорее найти суть. Подозреваю, что сам видео-формат и продвигается как пожиратель времени.В Яндексе уже достаточно давно появилась функция пересказ YouTubе - но это именно пересказ и отсебятина, мне это не подходит. Нужен точный текст.
Как «Писец» на Тотальный диктант ходил
В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами.

