Исследование: ИИ сложнее подделать токсичное поведение, чем интеллект

Большие языковые модели (БЯМ) легко отличить от людей при общении в социальных сетях, поскольку наиболее явным признаком служит чрезмерно дружелюбный тон. Учёные из нескольких университетов протестировали ^[1] девять моделей с открытым доступом на платформах X, Bluesky и Reddit. Созданные исследователями классификаторы смогли выявлять ответы, сгенерированные искусственным интеллектом ^[2], с точностью от 70 до 80%.

В своей работе научная группа представила «вычислительный тест Тьюринга» для оценки того, насколько ИИ-модели соответствуют человеческому языку. Вместо того чтобы полагаться на субъективное человеческое суждение о том, звучит ли текст аутентично, фреймворк использует автоматизированные классификаторы и лингвистический анализ для выявления специфических особенностей, отличающих сгенерированный контент от созданного человеком.

Даже после калибровки результаты БЯМ остаются чётко отличимыми от текста, написанного человеком. Особенно по эмоциональному тону и выражению чувств, пишут исследователи. Группа под руководством Николо Пагана из Цюрихского университета протестировала различные стратегии оптимизации: от простых подсказок до тонкой настройки. Более глубокие эмоциональные сигналы сохраняются как надёжные признаки того, что конкретное текстовое взаимодействие в интернете было инициировано ИИ, а не человеком, пояснили учёные.

В исследовании протестировали девять БЯМ: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509.

Когда моделей попросили сгенерировать ответы на посты в соцсетях от реальных пользователей, им было трудно соответствовать уровню неформального негатива и спонтанного выражения эмоций ^[3], характерных для публикаций людей. Показатели токсичности БЯМ неизменно оказывались ниже, чем у подлинных человеческих ответов на всех трёх платформах.

Чтобы компенсировать этот недостаток, исследователи попытались применить стратегии оптимизации, которые уменьшили структурные различия, но не эмоциональные. Комплексные калибровочные тесты ставят под сомнение предположение о том, что более сложная оптимизация обязательно приводит к более очеловеченному результату, пояснили исследователи.

Модели, настроенные на выполнение инструкций или прошедшие дополнительное обучение ^[4] для выполнения инструкций пользователя, на самом деле хуже имитируют поведение ^[5] человека, чем их базовые аналоги. Llama 3.1 8B и Mistral 7B v0.1 демонстрировали лучшую имитацию поведения ^[6] человека без настройки инструкций, обеспечивая точность классификации от 75 до 85%.

Масштабирование БЯМ не дало никаких преимуществ. Llama 3.1 с 70 млрд параметрами показала результаты на уровне или ниже, чем модели с 8 млрд параметров.

Предоставление реальных примеров прошлых публикаций пользователя или извлечение соответствующего контекста неизменно затрудняли различение текста ИИ от человеческого. Сложные подходы, такие как предоставление модели описания личности пользователя и тонкая настройка, оказывали незначительное или даже отрицательное влияние на реалистичность.

Нейросети лучше всего имитировали пользователей X, а хуже всего — Reddit.

Препринт научной работы «Computational Turing Test Reveals Systematic Differences Between Human and AI Language» опубликован 06 ноября 2025 года на сайте arXiv (DOI: 10.48550/arXiv.2511.04195 ^[1]).

Автор: Travis_Macrif

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21886

URLs in this post:

[1] протестировали: https://arxiv.org/abs/2511.04195

[2] интеллектом: http://www.braintools.ru/article/7605

[3] эмоций: http://www.braintools.ru/article/9540

[4] обучение: http://www.braintools.ru/article/5125

[5] поведение: http://www.braintools.ru/article/9372

[6] поведения: http://www.braintools.ru/article/5593

[7] Источник: https://habr.com/ru/news/966122/?utm_source=habrahabr&utm_medium=rss&utm_campaign=966122

Нажмите здесь для печати.