Google Health AI выпускает MedASR: модель преобразования речи в текст для клинической диктовки. ai.. ai. google health ai.. ai. google health ai. MedASR.. ai. google health ai. MedASR. Блог компании BotHub.. ai. google health ai. MedASR. Блог компании BotHub. Будущее здесь.. ai. google health ai. MedASR. Блог компании BotHub. Будущее здесь. ИИ.. ai. google health ai. MedASR. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. google health ai. MedASR. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное.. ai. google health ai. MedASR. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть.. ai. google health ai. MedASR. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть. открытая модель.
Google Health AI выпускает MedASR: модель преобразования речи в текст для клинической диктовки - 1

Команда Google Health AI выпустила MedASR – модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта.

Что такое MedASR?

MedASR – это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов.

Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдает только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка или генеративные модели, такие как MedGemma.

MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma, MedSigLIP и другими медицинскими моделями, которые имеют общие условия использования и согласованную систему управления.

MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи. Набор данных включает около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины.

Для обучения пары аудиосегментов сопоставляются с транскриптами и метаданными. Подмножества разговорных данных аннотируются медицинскими именованными сущностями, включая симптомы, лекарства и состояния. Это дает модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.

Модель предназначена только для английского языка, и большинство обучающих аудиозаписей получены от носителей языка, выросших в Соединённых Штатах. В документации отмечается, что производительность может быть ниже для других профилей говорящих или при использовании шумных микрофонов, и рекомендуется тонкая настройка для таких условий.

Архитектура и декодирование

MedASR следует д��зайну кодировщика Conformer. Conformer сочетает в себе блоки свертки с уровнями самовнимания, что позволяет улавливать локальные акустические закономерности и более длительные временные зависимости в одном стеке.

Модель представлена в виде автоматизированного детектора речи с интерфейсом в стиле CTC. В эталонной реализации разработчики используют AutoProcessor для создания входных функций из аудиоданных в виде волновых форм и AutoModelForCTC для получения последовательностей токенов. По умолчанию используется жадное декодирование. Модель также может быть объединена с внешней шестиграммовой языковой моделью с лучевым поиском размером 8 для повышения точности распознавания слов.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Rambler's Top100