- BrainTools - https://www.braintools.ru -

Команда Google Health AI выпустила MedASR – модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта [1].
MedASR – это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов.
Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдает только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка или генеративные модели, такие как MedGemma.
MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma, MedSigLIP и другими медицинскими моделями, которые имеют общие условия использования и согласованную систему управления.
MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи. Набор данных включает около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины.
Для обучения [2] пары аудиосегментов сопоставляются с транскриптами и метаданными. Подмножества разговорных данных аннотируются медицинскими именованными сущностями, включая симптомы, лекарства и состояния. Это дает модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.
Модель предназначена только для английского языка, и большинство обучающих аудиозаписей получены от носителей языка, выросших в Соединённых Штатах. В документации отмечается, что производительность может быть ниже для других профилей говорящих или при использовании шумных микрофонов, и рекомендуется тонкая настройка для таких условий.
MedASR следует д��зайну кодировщика Conformer. Conformer сочетает в себе блоки свертки с уровнями самовнимания, что позволяет улавливать локальные акустические закономерности и более длительные временные зависимости в одном стеке.
Модель представлена в виде автоматизированного детектора речи с интерфейсом в стиле CTC. В эталонной реализации разработчики используют AutoProcessor для создания входных функций из аудиоданных в виде волновых форм и AutoModelForCTC для получения последовательностей токенов. По умолчанию используется жадное декодирование. Модель также может быть объединена с внешней шестиграммовой языковой моделью с лучевым поиском размером 8 для повышения точности распознавания слов.
Делегируйте часть рутинных задач вместе с BotHub! [3] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [5]
Автор: MrRjxrby
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23778
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучения: http://www.braintools.ru/article/5125
[3] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GOOGLE_HEALTH_AI_REALEASES_MEDASR_A_SPEECH-TO-TEXT_MODEL_FOR_CLINICAL_DICTATION
[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[5] Источник: https://developers.google.com/health-ai-developer-foundations/medasr
[6] Источник: https://habr.com/ru/companies/bothub/news/981084/?utm_source=habrahabr&utm_medium=rss&utm_campaign=981084
Нажмите здесь для печати.