- BrainTools - https://www.braintools.ru -

Reddit заявляет, что компании, занимающиеся ИИ, извлекают данные из Wayback Machine в нарушение правил платформы, поэтому собирается запретить [1] Internet Archive индексировать большую часть Reddit, сообщает The Verge.
Архив Wayback Machine больше не сможет сканировать страницы с подробными описаниями постов, комментариями или профилями на Reddit. Internet Archive сможет индексировать только главную страницу Reddit.com [2], то есть только информацию о том, какие заголовки новостей и посты были наиболее популярны в тот или иной день.
«Нам известно о случаях, когда компании, занимающиеся искусственным интеллектом [3], нарушают правила платформы, в том числе наши, и извлекают данные из Wayback Machine», — сообщил [1] The Verge представитель компании Тим Ратшмидт.
Задача Internet Archive — хранить цифровой архив веб-сайтов в интернете и «других культурных артефактов», а Wayback Machine — это инструмент, с помощью которого можно просматривать страницы в том виде, в котором они были доступны в определённые даты. Однако Reddit считает, что не весь его контент должен быть заархивирован таким образом. «Пока они не смогут защитить свой сайт и соблюдать правила платформы (например, уважать конфиденциальность пользователей, удалять удалённый контент), мы ограничиваем их доступ к данным Reddit, чтобы защитить пользователей», — говорит [1] Ратшмидт.
По словам Ратшмидта, Reddit уведомил Internet Archive об ограничениях. В прошлом Reddit также «высказывал опасения» по поводу возможности пользователей извлекать контент из Internet Archive.
Ранее Reddit заключил сделку [4] с Google о предоставлении данных для обучения [5] искусственного интеллекта. Как сообщает Bloomberg, стоимость лицензии составила $60 млн в год.
В начале июня 2025 года Reddit подал иск [6] к Anthropic, обвинив стартап в несанкционированном использовании материалов с платформы для обучения нейросети Claude. Речь идёт о более чем 100 тыс. обращений к ресурсу с июля 2024 года — после того, как Anthropic якобы запретила веб-сканирование Reddit.
Reddit намерен [7] строго контролировать публикацию контента на платформе. Компания планирует ввести систему верификации, чтобы убедиться, что посты на форумах публикуют люди.
Автор: darya_kiwi
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18239
URLs in this post:
[1] запретить: https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
[2] Reddit.com: http://Reddit.com
[3] интеллектом: http://www.braintools.ru/article/7605
[4] заключил сделку: https://www.theverge.com/2024/2/22/24080165/google-reddit-ai-training-data
[5] обучения: http://www.braintools.ru/article/5125
[6] подал иск: https://habr.com/ru/news/915786/
[7] намерен: https://habr.com/ru/news/922956/
[8] Источник: https://habr.com/ru/news/936142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=936142
Нажмите здесь для печати.