В каталоге готовых моделей Selectel появились модели для распознавания речи

Мы расширили наш Foundation Models Catalog ^[1] — добавили в него модели для транскрибации аудио (Speech-to-Text), включая легендарное семейство Whisper и GLM-ASR-Nano — новую передовую модель для распознавания речи. Они умеют конвертировать живую речь в связный структурированный текст: отлично справляются с шумом, распознают сложные термины, понимают разные акценты и автоматически расставляют знаки препинания.

Главные фишки новых моделей:

мультиязычность — точечное распознавание десятков языков мира;
высокая точность — уверенно разбирают даже тихую или быструю речь;
широкий спектр задач — от расшифровки звонков до создания субтитров к видео.

Сферы применения:

голосовые ассистенты и умные боты;
транскрибация интервью, лекций и созвонов;
аналитика работы колл-центров.

Новые модели уже доступны в Foundation Models Catalog ^[1] — можете протестировать их и подключить к вашим сервисам через API.

Автор: SofiaShpak

Источник ^[2]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/30901

URLs in this post:

[1] Foundation Models Catalog: https://selectel.ru/services/cloud/foundation-models-catalog/?utm_source=habr.com&utm_medium=referral&utm_campaign=fmc_news_sttmodels_280526_content

[2] Источник: https://habr.com/ru/companies/selectel/news/1040688/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1040688

Нажмите здесь для печати.