
В прошлом гайде https://habr.com/ru/articles/918226/ я уже разбирал по каким признакам палится искусственный текст и как можно очеловечить даже самый бездушный ответ нейросети. Но было интересно, правда ли люди так круто отличают своего от машинного, если убрать ярко выраженный стиль или дурацкие автозамены. Так в рамках статьи был приведен тест https://tally.so/r/w4DZoO, позволяющий проверить свои навыки распознавания.
Я собирал интерактивный тест из пары десятков парных текстов и предоставил аудитории угадывать, где писал человек, а где нейросеть. Было ожидание, что завсегдатаи хабра и айтишники разнесут LLM в сухую. Ан нет, результат вышел отрезвляющим.
Кто победил человек или алгоритм
Тест готовился на GPT-o3, без каких-то мудреных техник, разве что векторизованная выгрузка из канала автора и пары переписок + лигий тюнинг после анализа его тональности. Те ничего особенного.
В опросе поучаствовали 300 человек. В тесте – 28 вопросов (14 пар текстов). Специально миксовал бытовые зарисовки личные истории и рабочие сцены, чтобы исключить явную стилевую палку.
Средний результат – 16 правильных из 28 → 58% точности угадывания. Это на пару процентов лучше монетки – но явно не повод гордиться. Медиана – 17. Почти треть респондентов не набрала и 50 процентов верных ответов – если бы отвечали вслепую, результат был бы не хуже.
На чем спотыкались даже финалисты теста
Вопросы про бытовые детали – кто что ест, что любит делать по утрам и прочие милые пустяки – в 45% случаев путали всех. Narrow AI (LLM-ки) научились пародировать банальщину лучше любого копирайтера – описания про овсянку с бананом или лето когда можно есть вишню проходят на ура.
Гладкая аргументация и стройная структура автоматически записывались в AI даже если писал человек. Парадокс: чем правильнее формулируешь мысли, тем больше шанс быть принятым за нейросеть. Постоянно наблюдаю баталии на этот счет на LinkedIn и Threads.
Юмор, автобиография, любые признаки эмоций или призмы личного опыта, даже если GPT изображает иронию или вставляет стрёмную шутку, участниками почти всегда распознавались как признак человека . У самой GPT местами это выходит убедительнее чем у некоторых людей.
Ошибки, небрежные обороты и внезапные обрывы фраз, почему-то начинают превращаться в классику, по которой идентифицируют живого автора. И они работали, но только до того момента, пока нейросеть не начинала их копировать более раздутыми корпусами и структурным промптингом.
Самое главное: чем больше GPT добавляла небрежности, тем хуже угадывали.
Где сыпались почти все
Длинные тексты. Если текст растянут на несколько абзацев и с виду автобиографичен, угадываемость падала до 38% на этих вопросах. Нейросеть тянет за счет постоянства и связности, а люди частенько теряют нить или уходят в повтор.
Если оба автора писали максимально пресно и сухо, угадывали хуже всего. Банальные советы искать гладкость или ловить неестественные обороты сработали бы года два назад; но сейчас не катят. GPT обновляется быстрее чем появляется новый детектор.
Если в тексте была яркая эмоция или исповедь – почти всегда считали, что писал человек. Но были вопросы где это был AI и там ошибка угадывания взлетала до 60%.
Общие паттерны и ложные ориентиры
Гладкость – значит робот. Личные детали – значит человек. Сухость – AI. Всё чаще это не так. Нейросеть ловко жонглирует всеми этими признаками. Чем сильнее участник теста был уверен в себе тем чаще ловил фейл именно на стыке человеческой ошибки и машинного мимикрирования.
Особенности поведения по данным теста
-
Участники уверены что их не провести (я так полагаю, иначе зачем тест проходить), но проваливают бытовые и личные тексты – GPT уже спокойно имитирует скучные детали жизни;
-
Удивительно много промахов на тексты средней длины – то есть на простых диалогах и описаниях событий без выпендрёжа;
-
Самые уверенные в себе комментаторы чаще ошибаются на деталях где текст специально ломает ритм или выбрасывает мелкие личные детали. Теперь и человек и нейросеть в этом одинаково убедительны;
-
В части вопросов где GPT изображала неловкие эмоции или ошибалась специально угадываемость была чуть выше рандома. Даже обратный паттерн: чем нелепее GPT, тем чаще её принимали за человека;
-
Упор на искать гладкость или неестественные обороты и ждать стрёмных шуток → банальная стратегия которая не работает с новыми моделями;
-
Комментировать про — и “ “ я даже не буду, слишком приелось;
-
Если текст очень скучный или слишком правильный, ловили осечку почти все. Сейчас по этому палится скорее не GPT, а недостаточно подкованный автор.
Итого
LLM мимикрирует не только под стиль, но и под типичные человеческие ошибки. Человечность становится новым скиллом, как когда-то умение писать код без багов. И если ты всё ещё надеешься поймать нейросеть по старым паттернам, что ж, я полагаю, ты немного отстал от мира.
Тест открыт – проверь свою интуицию. А полный гайд по признакам тут: https://habr.com/ru/articles/918226/

Автор: Renewal_Studio


