Nvidia выпустила большой открытый набор данных Granary для обучения ИИ и работы с текстами на европейских языках. Natural Language Processing.. Natural Language Processing. nvidia.. Natural Language Processing. nvidia. искусственный интеллект.. Natural Language Processing. nvidia. искусственный интеллект. Машинное обучение.. Natural Language Processing. nvidia. искусственный интеллект. Машинное обучение. нейросети.. Natural Language Processing. nvidia. искусственный интеллект. Машинное обучение. нейросети. обработка естественного языка.
Nvidia выпустила большой открытый набор данных Granary для обучения ИИ и работы с текстами на европейских языках - 1

Nvidia представила крупный набор данных и две ИИ-модели для распознавания и перевода речи на европейских языках. В датасет под названием Granary вошло около миллиона часов аудио, из них свыше 650 тысяч часов предназначены для системы распознавания речи, а 350 тысяч часов — для перевода. 

Granary охватывает 25 европейских языков — все 24 официальных языка Европейского союза, а также русский и украинский. Кроме широко представленных языков, таких как немецкий и французский, в Granary вошли аудиозаписи сравнительно редких языков, для которых ранее крупные датасеты не выходили, например, хорватского, эстонского и мальтийского. 

Для создания Granary компания объединила усилия с исследователями из Университета Карнеги-Меллона и Фонда Бруно Кесслера. Для обработки аудиоданных использовался набор инструментов NeMo Speech Data Processor, который позволяет преобразовать немаркированные публичные аудиозаписи в удобный для обучения ИИ формат. Этот процесс значительно снижает необходимость ручной разметки, ускоряет и удешевляет тренировку моделей. 

Помимо набора данных, Nvidia представила новые ИИ-модели — Canary и Parakeet. Canary-1b-v2 — это масштабная модель с миллиардами параметров, обученная на Granary, предназначенная для сложных задач, таких как длинные тексты и двунаправленный перевод между английским и 24 другими языками. Модель поддерживает функции автоматического восстановления пунктуации, а также позволяет создавать временные метки для слов и фраз, что полезно при составлении субтитров.

Второй релиз — Parakeet-tdt-0.6b-v6 — более компактная модель, созданная для быстрого выполнения повседневных задач, таких как потоковая транскрипция и быстрый перевод речи в реальном времени.

Nvidia рассчитывает, что открытый доступ к Granary и моделям Canary и Parakeet стимулирует исследовательское сообщество к разработке новых приложений и продуктов с эффективным распознаванием и переводом речи. Набор уже доступен разработчикам на таких платформах, как Hugging Face.

Автор: AnnieBronson

Источник

Rambler's Top100