Как борьба с ИИ стирает историю веба. fair use.. fair use. internet archive.. fair use. internet archive. wayback machine.. fair use. internet archive. wayback machine. авторское право.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y. веб-архив.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y. веб-архив. Законодательство в IT.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y. веб-архив. Законодательство в IT. искусственный интеллект.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y. веб-архив. Законодательство в IT. искусственный интеллект. Открытые данные.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y. веб-архив. Законодательство в IT. искусственный интеллект. Открытые данные. цифровая история.. fair use. internet archive. wayback machine. авторское право. Блог компании Cloud4Y. веб-архив. Законодательство в IT. искусственный интеллект. Открытые данные. цифровая история. Читальный зал.

Представьте, что газетный издатель объявляет: отныне библиотекам запрещено хранить копии его газет. Примерно это и происходит сейчас в интернете. 

Как борьба с ИИ стирает историю веба - 1

Internet Archive — крупнейшая цифровая библиотека мира — сохраняет веб-контент ещё с середины 1990-х. Её задача — архивировать интернет и делать его доступным для всех. Для этого Archive ведёт Wayback Machine, в которой сегодня хранится более триллиона архивных веб-страниц; ею ежедневно пользуются журналисты, исследователи и даже суды.

Однако в последние месяцы The New York Times начал блокировать доступ Archive к своему сайту — причём не через стандартные правила robots.txt, а более жёсткими техническими методами. Подобные шаги, судя по всему, предпринимают и другие издания, включая The Guardian.

Почему это проблема

Почти тридцать лет историки, журналисты и обычные читатели пользовались Internet Archive, чтобы видеть новостные сайты такими, какими те были в момент публикации. По данным сотрудников Archive, только Википедия содержит более 2,6 миллиона ссылок на новостные материалы, сохранённые в Archive, — на 249 языках.

Такие архивные копии нередко остаются единственным надёжным источником, позволяющим восстановить первоначальный вид материала. Статьи правят, меняют и удаляют — зачастую именно Internet Archive остаётся единственным местом, где можно отследить изменения. Стоит крупным издателям закрыть доступ для архивных краулеров — и этот исторический след просто исчезнет.

Причина — страх перед ИИ

По словам самих издателей, всё это делается из-за опасений, что ИИ-компании используют их материалы для обучения моделей.

Издатели хотят контролировать использование своего контента, и некоторые из них — включая Times — уже подали иски против ИИ-компаний, оспаривая законность использования защищённых авторским правом материалов для обучения моделей. При этом есть веские основания считать, что такое обучение подпадает под добросовестное использование (fair use).

Архивирование — законно

Как бы ни закончились эти судебные споры, блокировать некоммерческие архивы — неправильное решение. Организации вроде Internet Archive не создают коммерческие ИИ-системы. Они выполняют другую задачу: сохраняют историю. Попытка ограничить доступ к архивам ради контроля над ИИ — это значит уничтожить десятилетия цифровой истории ради конфликта, к которому архивы не имеют отношения.

Индексирование материалов для поиска — давно устоявшаяся практика fair use. Суды неоднократно отмечали: создать поисковый индекс без копирования исходных материалов, как правило, невозможно. Именно поэтому, когда Google оцифровывал целые книги для создания поисковой базы данных, суды признали это добросовестным использованием. Копирование служило трансформативной цели: обеспечивало возможность поиска, исследования и получения новых знаний о творческих произведениях.

Те же правовые принципы, что защищают поисковые системы, должны защищать и архивы с библиотеками. Даже если суды установят ограничения для обучения ИИ, правовые нормы, регулирующие поиск и веб-архивирование, уже давно сложились и хорошо известны.

Споры вокруг обучения ИИ реальны и должны быть разрешены в судах. Но жертвовать ради этой борьбы общедоступной исторической документацией — значит совершить глубокую и, возможно, необратимую ошибку.

Автор: Cloud4Y

Источник

Rambler's Top100