распознавание речи.

Погружаем модели в сказки русские, да рассказы древние – тестируем возможности Qwen и Whisper на дореволюционномъ

продолжить чтение

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Распознать "здравствуйте" в записи — задача, которая уже решена. Труднее понять, кому это "здравствуйте" сказано, кто

продолжить чтение

Как мы превращаем звонок риэлтора в карточку лида за 15 секунд: ИИ-автолид изнутри

Риэлтор за рулём. Звонит собственник трёшки на Соколе: «Видел ваше объявление, хочу обсудить продажу». Двадцать минут живого разговора — район, перепланировка, срочность, вилка по цене. Разговор кончается, риэлтор едет на показ, к вечеру у него ещё пять звонков. Утром он помнит, что «был кто-то по трёшке», но не помнит ни имени, ни цены, ни телефона. Лид потерян не потому, что плохо отработали, а потому, что между звонком и CRM стоит человек с памятью и руками, которые в этот момент держат руль.Мы сделали так, чтобы между звонком и карточкой лида не стояло ничего, кроме кода. Это инженерный разбор того, как у нас в

продолжить чтение

Почему Word Error Rate (WER) недостаточно: Семантическая декомпозиция ошибок ASR

ОглавлениеВступлениеБизнес-ценность и определение проблемыКак измеряется качество распознавания речи?Недостатки индустриального стандартаКак мы измеряем точность моделей у себяЗадача 1: Получить корректный датасет и сделать результаты сопоставимымиЗадача 2: Понять, где именно ошибка и к какой категории она относитсяЗадача 3: Объединить ошибки и семантику

продолжить чтение

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM - главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS-фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен-записях и часть прошлых выводов здесь уточняем.Кандидата у нас по-прежнему два: SberDevices GigaAM v3-e2e-rnnt и OpenAI Whisper large-v3-turbo

продолжить чтение

От папки с созвонами до 5K+ юзеров: как pet-проект «для себя» встретился с реальными пользователями

Сразу дисклеймер: в этой статье я ничего не продаю. GolosHub — мой бесплатный pet-проект без тарифов, подписок и коммерческого интереса. Это история не про “посмотрите на мой SaaS и дайте денег”, а про то, как моя личная боль с созвонами постепенно превратилась в платформу для работы с голосовой информацией для нескольких тысяч пользователей.1. Розы гибнут на газонах, а менеджеры на созвонахЗдравствуйте, меня зовут Александр, мне 29 лет и я алкоголик работаю продактом в бигтехе.

продолжить чтение

В каталоге готовых моделей Selectel появились модели для распознавания речи

Мы расширили наш Foundation Models Catalog

продолжить чтение

От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE

Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат.Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы.

продолжить чтение

Сломал руку, купил Pixel 10, возненавидел Gboard и написал свой офлайн-голосовой ввод для Android на GigaAM v3

Всё началось с того, что пару месяцев назад я сломал левую руку. Печатать одной правой оказалось той ещё пыткой, поэтому я начал искать альтернативы. Ради интереса попробовал встроенную диктовку на Маке, которой отродясь не пользовался. И внезапно обнаружил, что современный голосовой ввод в macOS — это пушка. Он отлично справляется с моим быстрым темпом речи и сложными словами. Я начал диктовать вообще всё: от сообщений в Telegram до рабочих промптов.А потом я попытался сделать то же самое на Android.

продолжить чтение

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента

продолжить чтение