GPT-4.5 смогла обмануть 73% людей, лишь притворившись глупее

GPT-4.5 смогла пройти тест Тьюринга лишь после того ^[1], как исследователи велели ей делать опечатки, пропускать знаки препинания и плохо считать. Хитрость сработала: 73% участников решили, что разговаривают с человеком.

Исследование, которым поделился специалист по оценке ИИ-рисков Шарбель-Рафаэль Сегери, показало: GPT-4.5 действительно прошла тест Тьюринга, но только после того, как учёные намеренно “ухудшили” её поведение ^[2]. Стратегия была проста: писать непринуждённо, допускать опечатки, плохо справляться с математикой ^[3], демонстрировать скромные знания и – главное – не слишком стараться произвести впечатление ^[4].

С такой “персоной” 73% участников приняли GPT-4.5 за настоящего человека – причём даже чаще, чем им удавалось правильно распознать реального человека в том же тесте. Если же модель не изображала небрежность и отвечала нормально, этот показатель резко падал – до 36%.

Ты довольно непринуждённый собеседник, и с орфографией у тебя не очень: часто коверкаешь слова, потому что печатаешь слишком быстро. ⟨…⟩ Ты говоришь коротко и довольно сухо. Часто выражаешься прямо и пишешь в основном строчными буквами, почти не используя пунктуацию. ⟨…⟩ Ты никогда не будешь писать целое предложение, если можно обойтись одним-двумя словами. ⟨…⟩ И вообще ты даже не собираешься всерьёз пытаться убедить собеседника, что ты человек. Просто будь собой и смотри, что п��лучится.

– Фрагменты промпта

Сегери ^[5], который занимается оценкой рисков манипуляций для EU AI Office, назвал результат “немного ироничным”: современный ИИ способен за секунды создавать страницы стройного, хорошо структурированного текста – и именно это ему приходится скрывать, чтобы сойти за человека.

Его вывод звучит почти насмешливо: похоже, планка того, что считается “человеческим”, оказалась гораздо ниже, чем многие ожидали.

GPT-4.5 прошёл тест Тьюринга – но лишь притворяясь менее умным, чем есть на самом деле

Тест Тьюринга измеряет подражание, а не интеллект

Тест Тьюринга считают устаревшим критерием оценки ИИ, поскольку он измеряет не интеллект ^[6] как таковой, а лишь способность машины имитировать человеческое поведение ^[7] – со всеми присущими ему слабостями, ошибками и несовершенствами.

К тому же сам факт, что большие языковые модели способны пройти тест Тьюринга, уже не новость. Более ранняя версия того же исследования, опубликованная в 2024 году, показала: GPT-4 достигла 54% успешности в одной из вариаций теста. После пятиминутного разговора половина участников была убеждена, что общается с настоящим человеком.

Делегируйте часть рутинных задач вместе с BotHub! ^[8] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[9] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: dmitrifriend

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27231

URLs in this post:

[1] лишь после того: https://the-decoder.com/gpt-4-5-fooled-73-percent-of-people-into-thinking-it-was-human-by-pretending-to-be-dumber/

[2] поведение: http://www.braintools.ru/article/9372

[3] математикой: http://www.braintools.ru/article/7620

[4] впечатление: http://www.braintools.ru/article/2012

[5] Сегери: https://crsegerie.github.io/

[6] интеллект: http://www.braintools.ru/article/7605

[7] поведение: http://www.braintools.ru/article/5593

[8] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=

[9] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[10] Источник: https://habr.com/ru/companies/bothub/news/1011052/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1011052

Нажмите здесь для печати.