Компания VK улучшила технологию автоматического распознавания речи в своих продуктах. Инженеры AI VK доработали систему ASR на базе моделей машинного обучения. Новая версия распознаёт речь на 20% точнее по сравнению с предыдущей.
Технология ASR преобразует голос в текст. Система переводит звук в цифровой формат и очищает запись от шума. После этого она анализирует особенности звучания и определяет произнесённые слова. Нейросетевые модели и LLM помогают понимать контекст и смысловые связи, что делает расшифровку более естественной и точной.

Новую версию технологии дообучили на расширенном наборе данных. Для этого использовали аудиодорожки из публично доступных видеороликов «VK Видео». Благодаря этому система стала лучше понимать темп и манеру речи. По результатам внутренних тестов модель превосходит зарубежные аналоги по качеству распознавания звуковых дорожек видео на русском языке.
Технологии ASR от VK применяются для создания субтитров в «VK Видео» и «VK Клипах», а также в образовательной платформе «Учи.ру». Система работает с голосовыми сообщениями в мессенджере «ВКонтакте». Технологию используют для внутренних задач компании, включая расшифровку встреч и их суммаризацию. Решение также помогает улучшать мультимодальные модели в рекомендательной системе Discovery.
Обновлённая версия уже запущена в «VK Видео» и «VK Клипах». Её используют во внутренних сервисах команды VK. Постепенно технологию внедрят в другие продукты группы. Команда AI VK планирует повысить точность распознавания голосовых сообщений и расширить поддержку языков. Также разработчики добавят диаризацию для разделения речи по спикерам.
Автор: Lexx_Nimofff


