speech recognition.

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Распознать "здравствуйте" в записи — задача, которая уже решена. Труднее понять, кому это "здравствуйте" сказано, кто

Оставлено в

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram-бота, который: Слушает голосовые сообщения и распознает речь без дорогих облачных API.Оценивает точность произношения в процентах, сравнивая с эталоном.

продолжить чтение

Оставлено в

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Кому лень читать полностью

продолжить чтение

Оставлено в

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

продолжить чтение

Оставлено в

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

продолжить чтение

Оставлено в

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

speech recognition.

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

speech recognition.

Как мы учили систему слышать тихого клиента на АЗС: двухмодальная аналитика для контроля сервиса

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One