
Компания Cohere представила модель Cohere Transcribe — систему автоматического распознавания речи (ASR), обученную с нуля на 14 языках. Модель построена на архитектуре Conformer и насчитывает около 2 млрд параметров, что позволяет ей эффективно работать в сложных акустических условиях.

Transcribe справляется с задачами, которые традиционно считаются сложными для ASR: распознаёт речь при наличии фонового шума, корректно обрабатывает перекрывающиеся голоса и учитывает особенности акцентов. Это делает модель пригодной для использования в реальных сценариях, таких как звонки, интервью и многоголосые обсуждения.

По данным Cohere, модель показала рекордную точность и заняла первое место в рейтинге Hugging Face Open ASR Leaderboard. Для английского языка показатель WER составил всего 5.42%, что позволило обойти такие решения, как Whisper Large v3 от OpenAI, ElevenLabs Scribe v2 и Qwen3-ASR.
Развернуть модель можно как локально, так и на edge-устройствах, либо использовать через API и платформу Cohere Model Vault. Веса уже доступны на Hugging Face, что делает Transcribe одним из самых доступных и мощных open-source решений в сегменте распознавания речи.
Запуск модели подтверждает усиливающуюся конкуренцию в области ASR и тренд на открытые решения, которые по качеству начинают обгонять закрытые модели крупных компаний.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


