ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM. Certificate Transparency.. Certificate Transparency. Data Mining.. Certificate Transparency. Data Mining. GlobalSign.. Certificate Transparency. Data Mining. GlobalSign. llm.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры. ИИ-боты.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры. ИИ-боты. Информационная безопасность.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры. ИИ-боты. Информационная безопасность. искусственный интеллект.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры. ИИ-боты. Информационная безопасность. искусственный интеллект. краулеры.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры. ИИ-боты. Информационная безопасность. искусственный интеллект. краулеры. Поисковые технологии.. Certificate Transparency. Data Mining. GlobalSign. llm. TLS-сертификаты. ugc. данные для обучения. дата-брокеры. ИИ-боты. Информационная безопасность. искусственный интеллект. краулеры. Поисковые технологии. скрапинг.

Согласно статистическому отчёту State of AI Traffic от компании по компьютерной безопасности Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

Труднее всего приходится сайтам, на которых часто выкладывается свежий контент и полезная информация для ИИ-инструментов. Например, сайты магазинов с информацией о товарах, или сайты СМИ. У них процент ботов уже приближается к 90%:

Средний процент ботов-скраперов на сайтах, которые максимально подвержены таким атакам (верхние 10% в выборке)

По состоянию на начало 2026 года в целом ИИ-трафик уже превысил человеческий, так что можно сделать вывод, что ИИ-боты официально захватили интернет.

Количество фейковых аккаунтов во всех сервисах растёт в геометрической прогрессии.

Количество фейковых аккаунтов на одного пользователя

«Интернет в целом был создан с этим очень простым представлением о том, что за экраном компьютера находится человек, и это представление очень быстро меняется», — говорит Стю Соломон, генеральный директор Human Security.

Отчёт основан на данных платформы Human Defense Platform, которая работает у клиентов компании и теоретически способна выявлять автоматизированный трафик.

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM - 3

Хотя этот отчёт не является исчерпывающим, он служит значимой вехой в эпоху ИИ в интернете. Отрасль отслеживает устойчивый рост автоматизированного трафика с момента запуска ChatGPT в 2022 году, а сейчас активность ботов в интернете официально превзошла активность людей.

На конференции SXSW в марте 2026 года гендиректор Cloudflare Мэтью Принс сказал, что до эры ИИ около 20% интернет-трафика составляли боты, и в основном это было связано с веб-краулером Google. Он предсказал, что к 2027 году трафик от ИИ-ботов превысит человеческий, ссылаясь на рост генеративного ИИ и его ненасытную потребность в данных.

Но это произошло раньше — в 2026 году.

Конец открытой Cети

Угроза настолько серьёзна, что сложившееся положение вещей некоторые эксперты называют концом Открытой сети в том виде, в каком мы её знали.

В открытой сети прошлого каждый пользователь мог свободно публиковать контент на широкую аудиторию. Сейчас весь контент немедленно поглощается ИИ-ботами и используется для обучения LLM, которая потом выдаёт пользователям выжимку после дистилляции. В результате «человеческий» трафик на сайты упал катастрофически. В некоторых случаях он составляет малую долю от трафика ИИ-ботов.

Отношение трафика ИИ-ботов и живых пользователей, которые приходят с данных ИИ-сервисов

Посещаемость сайтов в некоторых категориях, таких как технические СМИ, снизилась более чем на 50%.

Издатели пытаются защититься от ботов, перемещая всё больше контента в закрытый платный доступ, блокируя даже Internet Archive — и это ещё больше ослабляет позиции Открытого веба.

Открытые платформы, такие как Википедия, подвергаются атакам ботов, генерирующих ИИ-слоп. Опенсорсные программные проекты с трудом справляются с закрытием уязвимостей, обнаруженных ИИ.

Директивы robots.txt на запрет индексирования повсеместно игнорируются ИИ-компаниями.

Опенсорсные лицензии теперь тоже ничего не значат, потому что они тривиально обходятся с помощью LLM.

Сканирование логов сертификатов

ИИ-боты собирают в интернете любые данные, до которых дотянутся. Они сканируют даже логи TLS-сертификатов, чтобы выявлять новые домены для краулинга.

Как только пользователь регистрирует TLS-сертификат на домен (в данном случае autoconfig.benjojo.uk), на сервер практически мгновенно приходит первый посетитель:

Dec 12 20:43:04 xxxx xxx[719]: 
l=debug 
m="http request" 
pkg=http 
httpaccess= 
handler=(nomatch) 
method=get 
url=/robots.txt 
host=autoconfig.benjojo.uk 
duration="162.176µs" 
statuscode=404 
proto=http/2.0 
remoteaddr=74.7.175.182:38242 
tlsinfo=tls1.3 
useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; robots.txt; +https://openai.com/searchbot" 
referrr= 
size=19 
cid=19b14416d95

Речь идёт о логах CT (Certificate Transparency), где регистрируются все выданные сертификаты всеми Удостоверяющими центрами.

Отображение в браузере Firefox 149 информации из лога CT о TLS-сертификате, выданном GlobalSign

Инструменты для просмотра логов CT:

Живые сотрудники — генераторы контента

Для обучения LLM на рынке сейчас скупается любая информация, которую могут достать дата-брокеры. Например, при банкротстве компаний сейчас можно за большие деньги продать информационный архив с годами внутренней переписки сотрудников между собой, их рабочими файлами и кодом. Раньше такие данные из заброшенных проектов не несли никакой пользы, а сейчас это ценная информация для обучения.

Действующие фирмы загружают в LLM информационные архивы своих сотрудников (чаты из мессенджеров, почта, записи совещаний, рабочие файлы), создавая их «цифровых двойников», которые могут частично продублировать человека в случае его увольнения, см. репозиторий collegue-skill на Github.

Автоматический конвейер оцифровки действующих сотрудников, из репозитория collegue-skill

Форматы экспорта данных для навыка collegue-skill

Даже невербальное поведение (движения руками) — тоже ценная информация для обучения ИИ в отдельных профессиональных областях, поэтому на некоторых заводах все сотрудники теперь работают с видеокамерами на голове:

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM - 8

Топ-менеджеры компаний для лучшего управления фирмой создают своих собственных «цифровых двойников», чтобы контролировать каждого живого сотрудника персонально, поддерживая с ними непрерывный контакт.

Любая информация, сгенерированная живыми людьми (UGC), приобретает дополнительную ценность в наше время, когда ИИ-компании очень жёстко соревнуются между собой, пытаясь опередить остальных в скорости обучения своих языковых моделей. Поэтому живые сотрудники стали сейчас ценными как никогда.

В этих условиях эксперты рекомендуют соблюдать крайнюю осторожность при работе с LLM-сервисами и защищать конфиденциальную информацию от утечки.

Автор: GlobalSign_admin

Источник

Запись добавлена: 24.05.2026 в 17:32
Оставлено в

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Конец открытой Cети

Сканирование логов сертификатов

Живые сотрудники — генераторы контента

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Конец открытой Cети

Сканирование логов сертификатов

Живые сотрудники — генераторы контента