- BrainTools - https://www.braintools.ru -

В прошлом гайде https://habr.com/ru/articles/918226/ [1] я уже разбирал по каким признакам палится искусственный текст и как можно очеловечить даже самый бездушный ответ нейросети. Но было интересно, правда ли люди так круто отличают своего от машинного, если убрать ярко выраженный стиль или дурацкие автозамены. Так в рамках статьи был приведен тест https://tally.so/r/w4DZoO [2], позволяющий проверить свои навыки распознавания.
Я собирал интерактивный тест из пары десятков парных текстов и предоставил аудитории угадывать, где писал человек, а где нейросеть. Было ожидание, что завсегдатаи хабра и айтишники разнесут LLM в сухую. Ан нет, результат вышел отрезвляющим.
Тест готовился на GPT-o3, без каких-то мудреных техник, разве что векторизованная выгрузка из канала автора и пары переписок + лигий тюнинг после анализа его тональности. Те ничего особенного.
В опросе поучаствовали 300 человек. В тесте – 28 вопросов (14 пар текстов). Специально миксовал бытовые зарисовки личные истории и рабочие сцены, чтобы исключить явную стилевую палку.
Средний результат – 16 правильных из 28 → 58% точности угадывания. Это на пару процентов лучше монетки – но явно не повод гордиться. Медиана – 17. Почти треть респондентов не набрала и 50 процентов верных ответов – если бы отвечали вслепую, результат был бы не хуже.
Вопросы про бытовые детали – кто что ест, что любит делать по утрам и прочие милые пустяки – в 45% случаев путали всех. Narrow AI (LLM-ки) научились пародировать банальщину лучше любого копирайтера – описания про овсянку с бананом или лето когда можно есть вишню проходят на ура.
Гладкая аргументация и стройная структура автоматически записывались в AI даже если писал человек. Парадокс [3]: чем правильнее формулируешь мысли, тем больше шанс быть принятым за нейросеть. Постоянно наблюдаю баталии на этот счет на LinkedIn и Threads.
Юмор [4], автобиография, любые признаки эмоций [5] или призмы личного опыта [6], даже если GPT изображает иронию или вставляет стрёмную шутку, участниками почти всегда распознавались как признак человека . У самой GPT местами это выходит убедительнее чем у некоторых людей.
Ошибки [7], небрежные обороты и внезапные обрывы фраз, почему-то начинают превращаться в классику, по которой идентифицируют живого автора. И они работали, но только до того момента, пока нейросеть не начинала их копировать более раздутыми корпусами и структурным промптингом.
Самое главное: чем больше GPT добавляла небрежности, тем хуже угадывали.
Длинные тексты. Если текст растянут на несколько абзацев и с виду автобиографичен, угадываемость падала до 38% на этих вопросах. Нейросеть тянет за счет постоянства и связности, а люди частенько теряют нить или уходят в повтор.
Если оба автора писали максимально пресно и сухо, угадывали хуже всего. Банальные советы искать гладкость или ловить неестественные обороты сработали бы года два назад; но сейчас не катят. GPT обновляется быстрее чем появляется новый детектор.
Если в тексте была яркая эмоция [8] или исповедь – почти всегда считали, что писал человек. Но были вопросы где это был AI и там ошибка угадывания взлетала до 60%.
Гладкость – значит робот. Личные детали – значит человек. Сухость – AI. Всё чаще это не так. Нейросеть ловко жонглирует всеми этими признаками. Чем сильнее участник теста был уверен в себе тем чаще ловил фейл именно на стыке человеческой ошибки и машинного мимикрирования.
Участники уверены что их не провести (я так полагаю, иначе зачем тест проходить), но проваливают бытовые и личные тексты – GPT уже спокойно имитирует скучные детали жизни;
Удивительно много промахов на тексты средней длины – то есть на простых диалогах и описаниях событий без выпендрёжа;
Самые уверенные в себе комментаторы чаще ошибаются на деталях где текст специально ломает ритм или выбрасывает мелкие личные детали. Теперь и человек и нейросеть в этом одинаково убедительны;
В части вопросов где GPT изображала неловкие эмоции или ошибалась специально угадываемость была чуть выше рандома. Даже обратный паттерн: чем нелепее GPT, тем чаще её принимали за человека;
Упор на искать гладкость или неестественные обороты и ждать стрёмных шуток → банальная стратегия которая не работает с новыми моделями;
Комментировать про — и “ “ я даже не буду, слишком приелось;
Если текст очень скучный или слишком правильный, ловили осечку почти все. Сейчас по этому палится скорее не GPT, а недостаточно подкованный автор.
LLM мимикрирует не только под стиль, но и под типичные человеческие ошибки. Человечность становится новым скиллом, как когда-то умение писать код без багов. И если ты всё ещё надеешься поймать нейросеть по старым паттернам, что ж, я полагаю, ты немного отстал от мира.
Тест открыт – проверь свою интуицию [9]. А полный гайд по признакам тут: https://habr.com/ru/articles/918226/ [1]

Автор: Renewal_Studio
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/16777
URLs in this post:
[1] https://habr.com/ru/articles/918226/: https://habr.com/ru/articles/918226/
[2] https://tally.so/r/w4DZoO: https://tally.so/r/w4DZoO
[3] Парадокс: http://www.braintools.ru/article/8221
[4] Юмор: http://www.braintools.ru/article/3517
[5] эмоций: http://www.braintools.ru/article/9540
[6] опыта: http://www.braintools.ru/article/6952
[7] Ошибки: http://www.braintools.ru/article/4192
[8] эмоция: http://www.braintools.ru/article/9387
[9] интуицию: http://www.braintools.ru/article/6929
[10] Источник: https://habr.com/ru/articles/923122/?utm_source=habrahabr&utm_medium=rss&utm_campaign=923122
Нажмите здесь для печати.