Цифровой архив человечества: проекты оцифровки и проблема устаревания форматов
Цифровой архив человечества: проекты оцифровки и проблема устаревания форматов - 1

Человек — все-таки существо бренное. А наследие, созданное им, может пропасть навсегда. В истории уже были примеры полного или частичного уничтожения объектов исторического и культурного наследия. В том числе печатного. Чтобы не терять основы прошлого — созданы несколько цифровых библиотек, цель которых — сохранение и распространение бесплатных книг. Об этих проектах подробнее в нашей статье.

Гутенберг

Майкл Харт запустил проект еще в далеком 1971 году. При этом обосновал его — соответствующей философией.

Харт заявил, что вводимое в компьютер — воспроизводится бесконечно («технология репликации»). Соответственно, каждый человек, имея ПК или спутниковую связь, получает доступ к загруженным в электронную систему копиям книг.

Для загрузки Харт предлагал использовать «простой ASCII-код» — этот параметр доступен для 99% оборудования и программного обеспечения.

«… проект Gutenberg избегает просьб, требований и давления с целью создания «авторитетных изданий». Мы не пишем для читателя, которому важно, стоит ли в той или иной фразе Шекспира двоеточие или точка между предложениями. Наша цель — выпускать электронные тексты, которые на 99,9% точны с точки зрения широкого читателя», — объясняют свою философию нынешние «гутенберговцы».

ASCII-код? И «Гутенберг» дальше не идет?

Тут всё достаточно сложно. В своей философии они придерживались позиции: делаем только то, что может быть доступно большинству. Например, есть ZIP-файлы. Этот формат может быть использован для работы. Что касается других форматов, то они преимущественно игнорировалось, так как подходили лишь для небольшой части целевой аудитории.

Гутенберг оговаривался: «Однако (программисты, обратите внимание: нам понадобится помощь), мы планируем добавить в наши файлы ссылки для сжатия, чтобы их можно было передавать… на лету. То есть мы должны иметь возможность генерировать любой запрошенный файл, но хранить на наших серверах только одну копию каждого электронного текста…».

И что происходит на данный момент?

Проект подстроился под тренды и предоставляет возможность скачивания книг в разных форматах. В том числе, например, для электронных читалок. 

Память мира

Этот реестр наследия человечества функционирует с 1992 года при поддержке ЮНЕСКО. В проект «Память мира» включают не только книги, но и, например, фотографии, аудио- и видеозаписи, карты, рукописи и многое другое.

Список контента внутри реестра самый разнонаправленный: тут и архивы философов и ученых (Фридрих Ницше, Чарльз Дарвин), и первые рентгеновские снимки, и материалы, сохраненные после смерти Карлоса Шагаса, и исторические документы разного профиля (например, о рабстве в Анголе, Кабо-Верде, Мозамбике и других государствах).

Google Books

Этот сайт был создан в начале 2000-х. Для наполнения поисковик даже заключил на первых порах официальные соглашения с библиотеками крупнейших университетов США. В результате в 2010 году внутри проекта было доступно минимум 15 млн книг, в 2023-м — уже более 40 млн изданий на 500 языках мира.

Запущенное, отметим сразу, имело нестандартное восприятие со стороны авторов. Гильдия последних даже подала на Google в суд. Тяжба длилась почти 10 лет.

В 2008 году даже появилось мировое соглашение, которое устанавливало обязанность IT-гиганта по выплате 125 млн долларов. Однако Google не остановился: дело пересматривалось несколько раз. И только в 2015 году суды признали, что книжный сервис портала не представляет угрозы: «Создание Google цифровой копии для обеспечения функции поиска… расширяет общественные знания, [размещая] информацию о книгах истцов, без … существенной замены материала, защищенного авторскими правами [заявителей] на оригинальные произведения или их производные». Третья ветвь власти заключила, что электронная версия книг практически  не влияет на приобретение печатных экземпляров.

Но ведь это всё хорошо? У человечества есть цифровой архив?

Радоваться не стоит.

Во-первых, темп создания новой информации в цифровую эпоху опережает значительно все имеющееся до этого: ежедневно в 2025-2026 годах создается от 400 до 600 млн терабайт данных. И этот объем в тысячи раз больше, чем объем данных за всё XX столетие.

Во-вторых, темп оцифровки книг, их размещения существенно снизился, в активе того же проекта «Гутенберг» всего около 80 тысяч книг, что очень мало в масштабах всего мира. Такая ситуация связана с бюрократизацией системы управления организаций, которые принимают соответствующие решения (в контексте Гутенберга — с тем, что проект полностью волонтерский). А в то же время — старые материалы, размещенные на дискетах, фактически уничтожаются, а аппаратура для чтения ряда форматов попросту приходит в негодность. Да о чем говорить, если 38% старых интернет-страниц (2013 год) больше не функционируют: информация, которая там размещалась, исчезла, испарилась в воздухе, и, возможно, больше никогда не восстановится. 

В-третьих, технологии и скорость размещения материалов устаревают значительно. Конечно, цифровые архивы пытаются подстроиться под новые тренды, но где гарантии, что они успеют за взрывным ростом количества книг и контента? Особенно в эпоху нейрослопа, когда львиная доля контента создается ИИ.

В-четвертых, из-за чрезвычайного проникновения искусственного интеллекта когнитивные способности человека снижаются. И не факт, что людям в перспективе потребуются книги Шекспира, Достоевского и Пастернака. Что может быть проще: не пробираться через старинный слог, не ломать свои мозги, а просто дать задание ИИ: прочитай, выдели главное и дай развернутое саммари? Идиократия как таковая.

О сервисе Онлайн Патент:

Онлайн Патент — цифровая система № 1 в рейтинге Роспатента. С 2013 года мы создаем уникальные LegalTech‑решения для защиты и управления интеллектуальной собственностью. Зарегистрируйтесь в сервисе Онлайн‑Патент и получите доступ к следующим услугам:

Автор: Oksana_Nedvigina

Источник

  • Запись добавлена: 15.04.2026 в 08:03
  • Оставлено в