asr.

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Привет, Хабр!Ранее в блоге компании АСКОН я уже делился подборкой инструментов, которые использую в своей повседневной работе. Сегодня хочу продолжить эту тему и рассказать, как нейросети поменяли мой рабочий процесс, какие задачи они помогают решать, и почему вам не обязательно быть ML-инженером, чтобы эффективно использовать ИИ на практике. А кроме того расскажу, как с помощью нейросетей добавляют полезный функционал в инженерное программное обеспечение.

продолжить чтение

Оставлено в

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Привет! Распознаванием речи (ASR) уже никого не удивишь, но качественное распознавание на разговорном русском языке, а особенно в телефонии — очень сложная штука: люди редко говорят как профессиональные дикторы, часто бывает плохое качество звука с постоянными шумами на фоне и в целом есть миллиарды прочих нюансов. Наша компания занимается голосом больше 8 лет, есть собственные классные модели синтеза, распознавания и продукты на их основе, поэтому экспериментов мы проводим очень много и за появлением новых голосовых моделей следим очень внимательно.

продолжить чтение

Оставлено в

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

Привет, Хабр! Меня зовут Азик, я старший ML-инженер в NLP-лаборатории Центра ИИ Контура. В прошлом году я занимался запуском автоматической суммаризации встреч в Толке – нашем сервисе для видеозвонков.В этой статье расскажу, как мы построили продакшен-систему, которая превращает часы разговоров в сжатую выжимку: какие инженерные решения обеспечивают стабильную работу, как мы выбирали модели, и почему наша архитектура оказалась масштабируемой и переиспользуемой для других задач.А если вам удобнее смотреть, а не читать, то вот ссылка на мой доклад на Saint HighLoad++ 2025.

продолжить чтение

Оставлено в

T-one — открытая русскоязычная потоковая модель для телефонии

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

продолжить чтение

Оставлено в

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat, эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте!Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

asr.

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Трансформация рабочих процессов с помощью нейросетей

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

T-one — открытая русскоязычная потоковая модель для телефонии

Как мы научили GigaChat слышать: погружение в аудиомодальность

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

asr.

Разработка автономного речевого тренажёра для обучения иностранным языкам на основе больших языковых моделей

Трансформация рабочих процессов с помощью нейросетей

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Автоматическая суммаризация 10K встреч в день: от требований к продакшн-решению

T-one — открытая русскоязычная потоковая модель для телефонии

Как мы научили GigaChat слышать: погружение в аудиомодальность