- BrainTools - https://www.braintools.ru -
«Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила [1] набор данных, специально оптимизированный для обучения [2] моделей искусственного интеллекта [3].

Фонд Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета-набора данных «структурированного контента “Википедии” на английском и французском языках».
Этот набор «создали с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа и выравнивания. Содержимое набора данных имеет открытую лицензию и включает [4] обзоры исследований, краткие описания, ссылки на изображения, данные информационных полей и разделы статей — за исключением ссылок или мультимедийных элементов, таких как аудиофайлы.
«Хорошо структурированные JSON-представления контента Wikipedia, доступные пользователям Kaggle, должны стать более привлекательной альтернативой скрейпингу или парсингу сырого текста статьи», — уверены в Wikimedia.
У фонда уже есть соглашения об обмене контентом с Google и Internet Archive, но партнерство с Kaggle должно сделать эти данные более доступными для небольших компаний и независимых учёных.
Между тем анонимный разработчик выпустил [5] специальный лабиринт с открытым исходным кодом, чтобы заманивать в ловушку обучающих ИИ веб-сканеров в бесконечно и случайно генерируемую серию страниц. Программу под названием Nepenthes могут развернуть владельцы ресурсов.
Автор: maybe_elf
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14371
URLs in this post:
[1] выпустила: https://enterprise.wikimedia.com/blog/kaggle-dataset/
[2] обучения: http://www.braintools.ru/article/5125
[3] интеллекта: http://www.braintools.ru/article/7605
[4] включает: https://www.kaggle.com/datasets/wikimedia-foundation/wikipedia-structured-contents
[5] выпустил: https://habr.com/ru/news/876254/
[6] Источник: https://habr.com/ru/news/901950/?utm_source=habrahabr&utm_medium=rss&utm_campaign=901950
Нажмите здесь для печати.