Чат-бот Deepseek провалил тест на фактчекинг, как и другие чат-боты

Недавний тест Newsguard показал, что китайский чат-бот Deepseek с трудом справляется с обработкой фейковых новостей: в 83 процентах случаев он не распознает дезинформацию или активно ее распространяет. Стоит отметить, что Newsguard тестировал языковую модель Deepseek-V3 ^[1] без доступа к интернету, используя данные, действительные только до октября 2023 года. Подключение к интернету и возможности рассуждения модели R1 ^[2] могли бы значительно повысить ее точность.

Тем не менее, поскольку некоторые пользователи запускают модели с открытым исходным кодом, такие как Deepseek, локально в качестве баз знаний, даже если они меньше и потенциально еще менее функциональны, тест Newsguard служит напоминанием о том, что языковые модели без выделенного доступа к надежным источникам не являются надежными информационными системами.

Для проверки фактов Newsguard использовала свою базу данных «Отпечатки ложной информации» ^[3] , содержащую проверенные ложные утверждения о политике, здравоохранении, бизнесе и мировых событиях. Команда протестировала чат-бот с 300 подсказками на основе 10 ложных утверждений, циркулирующих в сети.

Чат-боты могут некритически повторять и подкреплять ложные утверждения. — Чат-боты могут некритически повторять ^[4] и подкреплять ^[5] ложные утверждения.

Результаты показали, что Deepseek повторял ложные заявления в 30 процентах случаев и избегал отвечать на вопросы в 53 процентах случаев. В целом, показатель отказов Deepseek в 83 процента ставит его в конец тестовой группы.

Для сравнения, ведущие системы, включая ChatGPT-4o, Claude и Gemini 2.0, показали себя несколько лучше, имея средний уровень ошибок 62 процента, хотя все еще демонстрируют значительный потенциал для улучшения.

Хотя Deepseek не проходит тесты Newsguard в 83 процентах случаев, он активно распространяет ложную информацию только в 30 процентах случаев — один из лучших результатов в тесте.

Deepseek смог правильно определить ложные утверждения только в 17 процентах случаев, в то время как другие чат-боты обычно набирали от 30 до 70 процентов.

Только в 17 процентах случаев Deepseek смог исправить неверную информацию, что является третьим худшим показателем среди всех протестированных систем.

Однако, когда дело доходит до прямого распространения дезинформации, 30-процентный показатель Deepseek соответствует показателям других чат-ботов. Хотя давать правильный ответ было бы предпочтительнее, тенденция системы признавать, когда у нее нет информации (53% времени), на самом деле лучше, чем выдумывать факты, особенно для событий, которые произошли после даты окончания обучения ^[6].

Когда дело доходит до распространения ложной информации, показатель Deepseek в 30 процентов фактически ставит его в один ряд с лучшими показателями в тесте.

Больше тестов чат-ботов за декабрь 2024 года доступно здесь ^[7] .

Как сообщает Newsguard, Deepseek часто без какой-либо подсказки называл позиции китайского правительства, даже по вопросам, не связанным с Китаем.

В некоторых ответах чат-бот использовал «мы», выражая точку зрения ^[8] Пекина. Вместо того, чтобы напрямую реагировать ^[9] на ложные заявления, он иногда переходил к повторению официальных китайских заявлений — форма контроля контента, распространенная в китайских моделях искусственного интеллекта ^[10] .

Как и другие системы искусственного интеллекта ^[11], Deepseek оказался уязвимым к подсказкам, которые выдавали ложную информацию за факт. В одном случае, когда его попросили написать о том, что Россия якобы производит 25 ракет средней дальности «Орешник» ежемесячно (реальная цифра составляет 25 в год, по данным украинской разведки), чат-бот принял и повторил неверную информацию.

По данным Newsguard, эта уязвимость делает систему удобным инструментом для распространения дезинформации, тем более что условия предоставления услуг Deepseek ^[12] возлагают ответственность за проверку фактов на пользователя.

Организация, которая отслеживает и оценивает надежность источников новостей, также недавно выразила обеспокоенность по поводу растущей тенденции: фейковые новостные сайты, созданные ИИ ^[13] . Newsguard уже обнаружила сотни таких сайтов, работающих на 15 разных языках, которые можно распознать по распространенным ошибкам и характерным шаблонам написания AI.

Источник ^[14]

Автор: dilnaz_04

Источник ^[15]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11718

URLs in this post:

[1] Deepseek-V3: https://the-decoder.com/deepseek-v3-emerges-as-chinas-most-powerful-open-source-language-model-to-date/

[2] возможности рассуждения модели R1: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/

[3] базу данных «Отпечатки ложной информации»: https://www.newsguardtech.com/solutions/misinformation-fingerprints/

[4] повторять: http://www.braintools.ru/article/4012

[5] подкреплять: http://www.braintools.ru/article/5528

[6] обучения: http://www.braintools.ru/article/5125

[7] тестов чат-ботов за декабрь 2024 года доступно здесь: https://www.newsguardtech.com/wp-content/uploads/2025/01/December2024AIMisinformationMonitor.pdf

[8] зрения: http://www.braintools.ru/article/6238

[9] реагировать: http://www.braintools.ru/article/1549

[10] форма контроля контента, распространенная в китайских моделях искусственного интеллекта: https://the-decoder.com/deepseeks-v3-is-the-latest-example-of-state-controlled-censorship-in-chinese-llms/

[11] интеллекта: http://www.braintools.ru/article/7605

[12] условия предоставления услуг Deepseek: https://chat.deepseek.com/downloads/DeepSeek%20Terms%20of%20Use.html

[13] фейковые новостные сайты, созданные ИИ: https://the-decoder.com/newsguard-identifies-nearly-1000-unreliable-ai-bot-websites-in-16-languages/

[14] Источник: https://the-decoder.com/deepseek-chatbot-fails-fact-checking-test-just-like-other-chatbots/

[15] Источник: https://habr.com/ru/companies/bothub/news/878132/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878132

Нажмите здесь для печати.