- BrainTools - https://www.braintools.ru -

«Википедия» представила набор данных для обучения ИИ ради борьбы со скрейпингом

«Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила [1] набор данных, специально оптимизированный для обучения [2] моделей искусственного интеллекта [3]

«Википедия» представила набор данных для обучения ИИ ради борьбы со скрейпингом - 1

Фонд Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета-набора данных «структурированного контента “Википедии” на английском и французском языках».

Этот набор «создали с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа и выравнивания. Содержимое набора данных имеет открытую лицензию и включает [4] обзоры исследований, краткие описания, ссылки на изображения, данные информационных полей и разделы статей — за исключением ссылок или мультимедийных элементов, таких как аудиофайлы.

«Хорошо структурированные JSON-представления контента Wikipedia, доступные пользователям Kaggle, должны стать более привлекательной альтернативой скрейпингу или парсингу сырого текста статьи», — уверены в Wikimedia. 

У фонда уже есть соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых учёных.

Между тем анонимный разработчик выпустил [5] специальный лабиринт с открытым исходным кодом, чтобы заманивать в ловушку обучающих ИИ веб-сканеров в бесконечно и случайно генерируемую серию страниц. Программу под названием Nepenthes могут развернуть владельцы ресурсов.

Автор: maybe_elf

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14371

URLs in this post:

[1] выпустила: https://enterprise.wikimedia.com/blog/kaggle-dataset/

[2] обучения: http://www.braintools.ru/article/5125

[3] интеллекта: http://www.braintools.ru/article/7605

[4] включает: https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents

[5] выпустил: https://habr.com/ru/news/876254/

[6] Источник: https://habr.com/ru/news/901950/?utm_source=habrahabr&utm_medium=rss&utm_campaign=901950

www.BrainTools.ru

Rambler's Top100