- BrainTools - https://www.braintools.ru -

Государство и бизнес тратят 1,5 миллиарда в год на слепой антиплагиат — и это проблема

Вы знали, что ниша антиплагиата пухнет от денег? Я тоже не знал, пока не полез в тендеры и мировую статистику. К 2030 году мировой объем долетит до $5.9 млрд. Но на рынке творится какой-то абсурд.

Рынок российского антиплагиата — 1,5 милларда рублей. Официальной статистики вы не найдёте. Эту информацию я нашёл сам в тендерах и базе СПАРК. И эти деньги тратят на проверку «технической» уникальности.

В 2020 году можно было парсить шинглы, с чистой совестью продавать это ВУЗам и знать, что почти наверняка программа поймает всех плагиатчиков. Сейчас картина немного другая:

При этом самая популярная система антиплагиата, по словам директора компании, в начале года ловила на ИИ лишь 15% работ [3]. А с недавних пор начала «ловить» ИИ даже там, где его не было: 1 [4], 2 [5]. Это всё уже привлекло внимание [6] представителей ЛДПР и Мизулиной. 

Государство и бизнес тратят 1,5 миллиарда в год на слепой антиплагиат — и это проблема - 1

Как распределяются деньги на рынке антиплагиата

Судя по тому, что нашёл я, разделение примерно следующее.

Вузы и госсектор — 80%. Министерства заставляют университет сканировать студенческие работы, а вузы покупают софт «для галочки». Средний федеральный университет тратит порядка 2 млн рублей за год.

Студенты — 15%. Они платят 200–300 рублей за прогон файла, чтобы проверить базовую уникальность.

Энтерпрайз — 5%. Крупный бизнес и НИИ смотрят, нет ли у них какого украденного кода или использования чужих патентов. В науке [7] и больших производствах крайне важно не нарушить ничьи  права.

Получается, что львиную долю бюджетов генерирует государство. И когда есть устоявшийся подход, сменить его трудно — поэтому ВУЗы закупают всё те же системы, что и пять лет назад.

За что платят миллионы

Профильные тендеры стабильно забирают три класса систем.

Масс-маркет с устаревшими технологиями. Он ловит откровенную копипасту и ленивые решения. Там честно работают отсев шинглов и стопроцентных дублей. Но нейросети ломают эту защиту в один клик. Студентам даже платная подписка не нужна, чтобы обходить такие фильтры.

Энтерпрайз-тяжеловесы. Серьезные продукты для НИИ и крупного бизнеса, которые я упоминал выше. Такие модели хорошо работают. Они анализируют векторную семантику. Скрипт парсит смысл текста, а не отдельные слова. Казалось бы, здорово? С точки зрения [8] результата — да.

Только вот внедрять такие платформы и пользоваться ими — отдельная большая задача, с которой справляются только корпораты. Нужны и свои сервера, и IT-отдел, и небольшое обучение [9] для пользователей — всё-таки там не только кнопка «проверить». Но бизнес и НИИ замотивированы всем этим пользоваться — для них это сейчас единственный рабочий способ не пустить в продакшен сгенерированный шлак. 

Чего-то «среднего» нет — либо покупаете дешёвую систему, которая даёт слабые результаты, либо вкладываетесь в энтерпрайз.

Turnitin. Это американский стандарт, который вроде бы решает все проблемы. И все новые технологии использованы, и айтишникам его внедрять проще, и пользователям легко.

Только вот легально купить лицензию нельзя, Turnitin поставлют через пень-колоду. И главное — зарубежный софт абсолютно слеп к сложной морфологии русского языка, отчего часто выдаёт ложноположительные срабатывания (об этом я подробнее расскажу в следующих статьях).

Как итог — по-настоящему удобного решения нет и пока не предвидится. Везде приходится сталкиваться с мощными ограничениями. Ругать рынок бессмысленно — сделать ситуацию лучше прямо сейчас вряд ли получится.

Как LLM ломают рынок прямо сейчас

Старые системы ищут точную копипасту, но любой «шаристый» студент берёт базовую бесплатную LLM и ломает алгоритм:

  • Кто-то прогоняет фрагменты через каскад переводчиков вроде DeepL. Русский → английский  → французский → английский → русский. Смысл сохраняется, но сами слова и предложения меняются полностью.

  • Кто-то заставляет нейросеть полностью пересобрать текст хитрыми промптами.

  • Кто-то меняет базу терминов синонимами.

Старые скрипты стали бессильны. В ответ вендоры выкатили новые ИТ-костыли. Разработчики прикрутили модули AI-детекции. 

В попытке адаптироваться к ИИ технологии пришли к массовым ложно-положительным срабатываниям. Скрипты сходят с ума, когда проверяют работы. Они игнорируют на контекст и то, что перед ними студенческие работы. Софт видит сложный академический слог и сразу кричит: «нейросеть!». А что студенты обязаны писать таким слогом — ну, это уже другой вопрос.

В итоге системы антиплагиата не помогают отсеивать плагиатчиков, а заставляют студентов и преподавателей совместно переписывать реальные работы, чтобы программа не обвинила их в использовании ИИ.

Что будет с рынком? Расскажу в следующих частях

Пока рынок заливает проблему деньгами, студенты продолжают обходить алгоритмы за пару кликов. В ближайшее время я залезу в эти системы и покажу, как работал антиплагиат раньше, на чем конкретно ломаются старые алгоритмы сейчас, и что может спасти от засилья ИИ-генерации. А потом, может, и какой прогноз соображу.

Автор: Albert_Wesker

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/30073

URLs in this post:

[1] 24% студенческих работ содержат четкие следы ИИ: https://www.vedomosti.ru/society/news/2025/10/10/1145956-chetvert-studencheskih-rabot

[2] 43% студентов сами признаются, что отдают нейросетям написание рефератов и дипломов: https://www.vedomosti.ru/society/articles/2025/03/31/1101211-iskusstvennii-intellekt-dlya-napisaniya-kursovih-rabot

[3] ловила на ИИ лишь 15% работ: https://finance.mail.ru/article/stalo-izvestno-kak-chasto-studenty-primenyayut-ii-v-rabotah-69196565/

[4] 1: https://t.me/bazabazon/45632

[5] 2: https://t.me/bazabazon/45647

[6] внимание: http://www.braintools.ru/article/7595

[7] науке: http://www.braintools.ru/article/7634

[8] зрения: http://www.braintools.ru/article/6238

[9] обучение: http://www.braintools.ru/article/5125

[10] Источник: https://habr.com/ru/articles/1033696/?utm_campaign=1033696&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100