«Неконтролируемая человеческая речь»: какие опасности таит в себе новый набор данных для AI?. ai.. ai. huggingface.. ai. huggingface. mlcommons.. ai. huggingface. mlcommons. Блог компании BotHub.. ai. huggingface. mlcommons. Блог компании BotHub. ии и машинное обучение.. ai. huggingface. mlcommons. Блог компании BotHub. ии и машинное обучение. искусственный интеллект.. ai. huggingface. mlcommons. Блог компании BotHub. ии и машинное обучение. искусственный интеллект. исследования в ai.. ai. huggingface. mlcommons. Блог компании BotHub. ии и машинное обучение. искусственный интеллект. исследования в ai. Машинное обучение.

MLCommons, некоммерческая рабочая группа по безопасности AI, объединилась с платформой для разработки AI Hugging Face, чтобы выпустить одну из крупнейших в мире коллекций голосовых записей из общественного достояния для исследований в области AI.

«Неконтролируемая человеческая речь»: какие опасности таит в себе новый набор данных для AI? - 1

Набор данных под названием «Неконтролируемая человеческая речь» содержит более миллиона часов аудиозаписей как минимум на 89 языках. MLCommons утверждает, что создание этого набора данных было мотивировано желанием поддержать исследования и разработки в «различных областях речевых технологий».

«Поддержка более широких исследований в области обработки естественного языка на языках, отличных от английского, помогает сделать коммуникационные технологии доступными большему числу людей по всему миру, — написала организация в блоге в четверг. — Мы ожидаем, что исследовательское сообщество продолжит создавать и развивать несколько направлений, особенно в области улучшения моделей речи на языках с ограниченными ресурсами, более эффективного распознавания речи с разными акцентами и диалектами, а также новых приложений для синтеза речи».

Это, безусловно, достойная цель. Но наборы данных AI, такие как «Неконтролируемая человеческая речь», могут представлять опасность для исследователей, которые решат их использовать.

Предвзятые данные — один из таких рисков. Записи в Unsupervised People’s Speech были сделаны на Archive.org, некоммерческой организации, наиболее известной благодаря инструменту веб-архивирования Wayback Machine. Поскольку многие участники Archive.org говорят по-английски — и являются американцами, — почти все записи в Unsupervised People’s Speech сделаны на английском с американским акцентом, согласно инструкции на официальной странице проекта.

Это говорит о том, что если не проводить тщательную проверку систем искусственного интеллекта, таких как модели распознавания речи и синтеза голоса, которые обучаются на речи людей без контроля, то они могут воспроизводить те же самые предвзятые взгляды. Например, они могут испытывать трудности с расшифровкой английской речи, произнесённой не носителем языка, или с созданием синтетического голоса на других языках, кроме английского.

Неконтролируемая человеческая речь также может содержать записи людей, которые не знают, что их голоса используются в исследовательских целях в области AI, в том числе в коммерческих приложениях. Хотя MLCommons утверждает, что все записи в наборе данных являются общественным достоянием или доступны по лицензиям Creative Commons, есть вероятность, что были допущены ошибки.

Согласно анализу Массачусетского технологического института, в сотнях общедоступных наборов данных для обучения AI отсутствует информация о лицензировании и содержатся ошибки. Сторонники прав создателей, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой организации Fairly Trained, занимающейся вопросами этики AI, утверждают, что от создателей не следует требовать «отказа» от наборов данных AI из-за чрезмерной нагрузки, которую такой отказ накладывает на создателей.

«У многих авторов (например, у пользователей Squarespace) нет возможности отказаться от использования», — написал Ньютон-Рекс в посте на X в июне прошлого года. «Для авторов, которые могут отказаться от использования, существует несколько перекрывающихся способов отказа, которые невероятно запутанные и крайне неполные. Даже если бы существовал идеальный универсальный отказ от использования, было бы крайне несправедливо возлагать бремя отказа на создателей, учитывая, что генеративный AI использует их работы, чтобы конкурировать с ними. Многие просто не осознают, что могут отказаться».

MLCommons заявляет, что стремится обновлять, поддерживать и улучшать качество «Неконтролируемой речи людей». Но, учитывая потенциальные недостатки, разработчикам следует проявлять серьёзную осторожность.

Источник

Автор: mefdayy

Источник

Запись добавлена: 01.02.2025 в 10:51
Оставлено в

«Неконтролируемая человеческая речь»: какие опасности таит в себе новый набор данных для AI?

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов