Возможно ли все еще отличить сгенерированный текст от написанного человеком?. ai.. ai. chatgpt.. ai. chatgpt. llm.

Моя предыстория

Ровно год назад после Тренировок по ML в Вышке и курсу по Соревновательному Data Science я решил поучаствовать в соревновании на Kaggle “LLM – Detect AI Generated Text“. Основная задача была определить сгенирирован ли текст или написан студентом(типичная бинарная классификация). Знаний тогда было не очень много, чтобы придумать свое решение, поэтому, по заветам курса, не стал придумывать велосипед, накинул побольше веса для CatBoost и попытался попасть в конечное распределение на private с помощью замены наивного баеса на SVM. В итоге, везение было на моей стороне, я получил серебро за это решение, заняв 152 место из 4500)

И все-таки по прошествию года я решил окончательно разобраться в этой теме, к тому же, за год llm шагнули очень далеко вперед и хочется понять, возможно ли детектить сгенерированный текст и какие инструменты есть для этого.

Способы для детекции ИИ контента

В самом начале контеста с помощью ребят с чатов курса было предложено множество гипотез, которые мы использовали для нахождения ИИ-текстов. Вот некоторые из них:

  1. Повторяющиеся предложения

    Модели искусственного интеллекта лишены человеческой способности распознавать и избегать избыточности, поэтому они не понимают, что снова и снова рассказывают одну и ту же историю. Чтобы обнаружить контент, сгенерированный ИИ, ищите повторяющееся использование слов и фраз. Они часто связаны с основной фразировкой текста. 

    Ответ от ChatGPT-4

    Ответ от ChatGPT-4
  2. Шаблонные структуры предложений

Модели языка ИИ в значительной степени опираются на общие фразы и идиомы. Они используют их чаще, чем люди-писатели, иногда чрезмерно и неадекватно. 

  • Используются ли фразы, которые придают тексту естественное звучание, но не добавляют никакой ценности?

  • Не слишком ли формальный и монотонный тон? 

Пост с Reddit про часто используемые слов на английском

Пост с Reddit про часто используемые слов на английском
  1. Монотонность ответов

    Возможно ли все еще отличить сгенерированный текст от написанного человеком? - 3
  2. Общие определения без подробностей

    Возможно ли все еще отличить сгенерированный текст от написанного человеком? - 4

Современные бенчмарки: что показывают исследования

1. Генеративные модели стали точнее, а значит — «незаметнее»

  • Если взять тексты GPT-4o или Deepsick и попросить их быть как можно более «человеческими», без длинных вводных фраз, то по классическим метрикам вроде perplexity их уже не так легко различить.

  • Новые модели (Llama3, Sonnet и др.) стремятся давать чёткие ответы и умеют подделывать стиль (например, стилизоваться под подростка, под научного сотрудника или блогера).

2. CheckGPT и похожие подходы

  • Появляются исследования вроде CheckGPT (arxiv.org/abs/2306.05524), где цепочку рассуждений пытаются «проверять» на достоверность на каждом шаге. Такие модели чуть более «прозрачны»: если им дать задачу написать текст, они могут сопровождать его проверенными фактами.

  • Для детекции же это палка о двух концах: если у нас доступ именно к «промежуточным» шагам reasoning, мы можем выловить там неестественные куски. Но в реальности детектор почти никогда не имеет прямого доступа к внутреннему треку рассуждения LLM, так что остаётся лишь анализ «финального результата».

3. Соревнования и тесты от крупных игроков

  • Meta (ранее Facebook) выпускала коды и модели, которые детектят сгенерированный текст на основе лингвистической стилистики и энтропии.

  • OpenAI предлагали собственный AI Text Classifier, но в начале 2023 он работал очень ненадёжно и в итоге OpenAI даже убрали его со своего сайта, признав, что сейчас нет идеального решения.

  • Turnitin (крупный антиплагиат-сервис) заявлял о внедрении ИИ-детектора, но практика показала, что он ошибается нередко: принимает человеческие эссе за сгенерированные и наоборот.

Инструменты для детекции сгенерированного текста

1. GPTZero

  • GPTZero – дин из самых популярных сервисов, появившийся ещё в начале 2023. Изначально позиционировался как «спасение для учителей». Показывает вероятность, что текст был сгенерирован.

  • Использует смесь лингвистических признаков, perplexity и burstiness (насколько скачкообразно распределение слов).

2. Crossplag, Undetectable AI и т. д.

  • Crossplag — ещё один сервис, который пытается определять, сгенерирован ли текст.

  • Undetectable AI — наоборот, сервис «по другую сторону баррикад», который берёт AI-текст и «переформатирует» его так, чтобы он не палился на детекторах.

  • При текущем уровне технологий это вечная гонка «детектор ↔ антагонист». Даже если сегодня детектору удаётся сносно различать «стандартные» тексты GPT, завтра появится сервис-шаблон, который сделает «двойную перестановку слов» и маскировку стилевых маркеров.

Можно ли до сих пор отличить ИИ-текст от написанного человеком?

Короткий ответ: «В общем случае всё сложнее».
Расширенный ответ:

  1. Да, можно выявлять некоторые следы, особенно если генерация была сделана не самой новой моделью и без дополнительного «вычитки» со стороны человека. Признаки повторяемости, шаблонности, монотонности тона, излишней формальной лексики всё ещё иногда «палят» ИИ.

  2. Нет, если речь о продвинутой модели, которая настроена писать в уникальном стиле. Плюс к этому, если человек подредактирует (перефразирует) результат, то классические детекторы почти наверняка провалятся.

В итоге мы наблюдаем некую гонку вооружений: появляются новые инструменты, которые вроде умеют ловить LLM-тексты, но тут же возникают способы «замаскировать» их. Есть мнение, что надежной автоматической детекции, работающей в 100% случаев (или хотя бы в 90%+), на сегодняшний день не существует. И это мнение поддерживают даже большие игроки вроде OpenAI.

Заключение

Тем не менее, вопрос «возможно ли всё ещё отличить сгенерированный текст от написанного человеком?» остаётся открытым. С каждым днём всё труднее ответить на него однозначно, но при должном усердии, сочетании разных инструментов и щепотке интуиции детекция по-прежнему возможна.

Ну а если кто-то хочет проверить удачу в Kaggle, то обязательно подписывайся на мой канал, так мы много обсуждаем про ML. Возможно, ещё добудешь золотую медаль — главное, чтобы в этот раз опять фартануло, да и CatBoost не подвёл!

Автор: nikotin55

Источник

  • Запись добавлена: 29.01.2025 в 09:00
  • Оставлено в
Rambler's Top100