Государство и бизнес тратят 1,5 миллиарда в год на слепой антиплагиат — и это проблема. llm.. llm. антиплагиат.. llm. антиплагиат. искусственный интеллект.. llm. антиплагиат. искусственный интеллект. контент.. llm. антиплагиат. искусственный интеллект. контент. нейросети.. llm. антиплагиат. искусственный интеллект. контент. нейросети. учёба.

Вы знали, что ниша антиплагиата пухнет от денег? Я тоже не знал, пока не полез в тендеры и мировую статистику. К 2030 году мировой объем долетит до $5.9 млрд. Но на рынке творится какой-то абсурд.

Рынок российского антиплагиата — 1,5 милларда рублей. Официальной статистики вы не найдёте. Эту информацию я нашёл сам в тендерах и базе СПАРК. И эти деньги тратят на проверку «технической» уникальности.

В 2020 году можно было парсить шинглы, с чистой совестью продавать это ВУЗам и знать, что почти наверняка программа поймает всех плагиатчиков. Сейчас картина немного другая:

При этом самая популярная система антиплагиата, по словам директора компании, в начале года ловила на ИИ лишь 15% работ. А с недавних пор начала «ловить» ИИ даже там, где его не было: 1, 2. Это всё уже привлекло внимание представителей ЛДПР и Мизулиной. 

Государство и бизнес тратят 1,5 миллиарда в год на слепой антиплагиат — и это проблема - 1

Как распределяются деньги на рынке антиплагиата

Судя по тому, что нашёл я, разделение примерно следующее.

Вузы и госсектор — 80%. Министерства заставляют университет сканировать студенческие работы, а вузы покупают софт «для галочки». Средний федеральный университет тратит порядка 2 млн рублей за год.

Студенты — 15%. Они платят 200–300 рублей за прогон файла, чтобы проверить базовую уникальность.

Энтерпрайз — 5%. Крупный бизнес и НИИ смотрят, нет ли у них какого украденного кода или использования чужих патентов. В науке и больших производствах крайне важно не нарушить ничьи  права.

Получается, что львиную долю бюджетов генерирует государство. И когда есть устоявшийся подход, сменить его трудно — поэтому ВУЗы закупают всё те же системы, что и пять лет назад.

За что платят миллионы

Профильные тендеры стабильно забирают три класса систем.

Масс-маркет с устаревшими технологиями. Он ловит откровенную копипасту и ленивые решения. Там честно работают отсев шинглов и стопроцентных дублей. Но нейросети ломают эту защиту в один клик. Студентам даже платная подписка не нужна, чтобы обходить такие фильтры.

Энтерпрайз-тяжеловесы. Серьезные продукты для НИИ и крупного бизнеса, которые я упоминал выше. Такие модели хорошо работают. Они анализируют векторную семантику. Скрипт парсит смысл текста, а не отдельные слова. Казалось бы, здорово? С точки зрения результата — да.

Только вот внедрять такие платформы и пользоваться ими — отдельная большая задача, с которой справляются только корпораты. Нужны и свои сервера, и IT-отдел, и небольшое обучение для пользователей — всё-таки там не только кнопка «проверить». Но бизнес и НИИ замотивированы всем этим пользоваться — для них это сейчас единственный рабочий способ не пустить в продакшен сгенерированный шлак. 

Чего-то «среднего» нет — либо покупаете дешёвую систему, которая даёт слабые результаты, либо вкладываетесь в энтерпрайз.

Turnitin. Это американский стандарт, который вроде бы решает все проблемы. И все новые технологии использованы, и айтишникам его внедрять проще, и пользователям легко.

Только вот легально купить лицензию нельзя, Turnitin поставлют через пень-колоду. И главное — зарубежный софт абсолютно слеп к сложной морфологии русского языка, отчего часто выдаёт ложноположительные срабатывания (об этом я подробнее расскажу в следующих статьях).

Как итог — по-настоящему удобного решения нет и пока не предвидится. Везде приходится сталкиваться с мощными ограничениями. Ругать рынок бессмысленно — сделать ситуацию лучше прямо сейчас вряд ли получится.

Как LLM ломают рынок прямо сейчас

Старые системы ищут точную копипасту, но любой «шаристый» студент берёт базовую бесплатную LLM и ломает алгоритм:

  • Кто-то прогоняет фрагменты через каскад переводчиков вроде DeepL. Русский → английский  → французский → английский → русский. Смысл сохраняется, но сами слова и предложения меняются полностью.

  • Кто-то заставляет нейросеть полностью пересобрать текст хитрыми промптами.

  • Кто-то меняет базу терминов синонимами.

Старые скрипты стали бессильны. В ответ вендоры выкатили новые ИТ-костыли. Разработчики прикрутили модули AI-детекции. 

В попытке адаптироваться к ИИ технологии пришли к массовым ложно-положительным срабатываниям. Скрипты сходят с ума, когда проверяют работы. Они игнорируют на контекст и то, что перед ними студенческие работы. Софт видит сложный академический слог и сразу кричит: «нейросеть!». А что студенты обязаны писать таким слогом — ну, это уже другой вопрос.

В итоге системы антиплагиата не помогают отсеивать плагиатчиков, а заставляют студентов и преподавателей совместно переписывать реальные работы, чтобы программа не обвинила их в использовании ИИ.

Что будет с рынком? Расскажу в следующих частях

Пока рынок заливает проблему деньгами, студенты продолжают обходить алгоритмы за пару кликов. В ближайшее время я залезу в эти системы и покажу, как работал антиплагиат раньше, на чем конкретно ломаются старые алгоритмы сейчас, и что может спасти от засилья ИИ-генерации. А потом, может, и какой прогноз соображу.

Автор: Albert_Wesker

Источник