Reddit заблокирует доступ к Internet Archive

Reddit заявляет, что компании, занимающиеся ИИ, извлекают данные из Wayback Machine в нарушение правил платформы, поэтому собирается запретить ^[1] Internet Archive индексировать большую часть Reddit, сообщает The Verge.

Архив Wayback Machine больше не сможет сканировать страницы с подробными описаниями постов, комментариями или профилями на Reddit. Internet Archive сможет индексировать только главную страницу Reddit.com ^[2], то есть только информацию о том, какие заголовки новостей и посты были наиболее популярны в тот или иной день.

«Нам известно о случаях, когда компании, занимающиеся искусственным интеллектом ^[3], нарушают правила платформы, в том числе наши, и извлекают данные из Wayback Machine», — сообщил ^[1] The Verge представитель компании Тим Ратшмидт.

Задача Internet Archive — хранить цифровой архив веб-сайтов в интернете и «других культурных артефактов», а Wayback Machine — это инструмент, с помощью которого можно просматривать страницы в том виде, в котором они были доступны в определённые даты. Однако Reddit считает, что не весь его контент должен быть заархивирован таким образом. «Пока они не смогут защитить свой сайт и соблюдать правила платформы (например, уважать конфиденциальность пользователей, удалять удалённый контент), мы ограничиваем их доступ к данным Reddit, чтобы защитить пользователей», — говорит ^[1] Ратшмидт.

По словам Ратшмидта, Reddit уведомил Internet Archive об ограничениях. В прошлом Reddit также «высказывал опасения» по поводу возможности пользователей извлекать контент из Internet Archive.

Ранее Reddit заключил сделку ^[4] с Google о предоставлении данных для обучения ^[5] искусственного интеллекта. Как сообщает Bloomberg, стоимость лицензии составила $60 млн в год.

В начале июня 2025 года Reddit подал иск ^[6] к Anthropic, обвинив стартап в несанкционированном использовании материалов с платформы для обучения нейросети Claude. Речь идёт о более чем 100 тыс. обращений к ресурсу с июля 2024 года — после того, как Anthropic якобы запретила веб-сканирование Reddit.

Reddit намерен ^[7] строго контролировать публикацию контента на платформе. Компания планирует ввести систему верификации, чтобы убедиться, что посты на форумах публикуют люди.

Автор: darya_kiwi

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18239

URLs in this post:

[1] запретить: https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit

[2] Reddit.com: http://Reddit.com

[3] интеллектом: http://www.braintools.ru/article/7605

[4] заключил сделку: https://www.theverge.com/2024/2/22/24080165/google-reddit-ai-training-data

[5] обучения: http://www.braintools.ru/article/5125

[6] подал иск: https://habr.com/ru/news/915786/

[7] намерен: https://habr.com/ru/news/922956/

[8] Источник: https://habr.com/ru/news/936142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=936142

Нажмите здесь для печати.