- BrainTools - https://www.braintools.ru -
Недавний тест Newsguard показал, что китайский чат-бот Deepseek с трудом справляется с обработкой фейковых новостей: в 83 процентах случаев он не распознает дезинформацию или активно ее распространяет. Стоит отметить, что Newsguard тестировал языковую модель Deepseek-V3 [1] без доступа к интернету, используя данные, действительные только до октября 2023 года. Подключение к интернету и возможности рассуждения модели R1 [2] могли бы значительно повысить ее точность.

Тем не менее, поскольку некоторые пользователи запускают модели с открытым исходным кодом, такие как Deepseek, локально в качестве баз знаний, даже если они меньше и потенциально еще менее функциональны, тест Newsguard служит напоминанием о том, что языковые модели без выделенного доступа к надежным источникам не являются надежными информационными системами.
Для проверки фактов Newsguard использовала свою базу данных «Отпечатки ложной информации» [3] , содержащую проверенные ложные утверждения о политике, здравоохранении, бизнесе и мировых событиях. Команда протестировала чат-бот с 300 подсказками на основе 10 ложных утверждений, циркулирующих в сети.
Результаты показали, что Deepseek повторял ложные заявления в 30 процентах случаев и избегал отвечать на вопросы в 53 процентах случаев. В целом, показатель отказов Deepseek в 83 процента ставит его в конец тестовой группы.
Для сравнения, ведущие системы, включая ChatGPT-4o, Claude и Gemini 2.0, показали себя несколько лучше, имея средний уровень ошибок 62 процента, хотя все еще демонстрируют значительный потенциал для улучшения.
Deepseek смог правильно определить ложные утверждения только в 17 процентах случаев, в то время как другие чат-боты обычно набирали от 30 до 70 процентов.
Однако, когда дело доходит до прямого распространения дезинформации, 30-процентный показатель Deepseek соответствует показателям других чат-ботов. Хотя давать правильный ответ было бы предпочтительнее, тенденция системы признавать, когда у нее нет информации (53% времени), на самом деле лучше, чем выдумывать факты, особенно для событий, которые произошли после даты окончания обучения [6].
Больше тестов чат-ботов за декабрь 2024 года доступно здесь [7] .
Как сообщает Newsguard, Deepseek часто без какой-либо подсказки называл позиции китайского правительства, даже по вопросам, не связанным с Китаем.
В некоторых ответах чат-бот использовал «мы», выражая точку зрения [8] Пекина. Вместо того, чтобы напрямую реагировать [9] на ложные заявления, он иногда переходил к повторению официальных китайских заявлений — форма контроля контента, распространенная в китайских моделях искусственного интеллекта [10] .
Как и другие системы искусственного интеллекта [11], Deepseek оказался уязвимым к подсказкам, которые выдавали ложную информацию за факт. В одном случае, когда его попросили написать о том, что Россия якобы производит 25 ракет средней дальности «Орешник» ежемесячно (реальная цифра составляет 25 в год, по данным украинской разведки), чат-бот принял и повторил неверную информацию.
По данным Newsguard, эта уязвимость делает систему удобным инструментом для распространения дезинформации, тем более что условия предоставления услуг Deepseek [12] возлагают ответственность за проверку фактов на пользователя.
Организация, которая отслеживает и оценивает надежность источников новостей, также недавно выразила обеспокоенность по поводу растущей тенденции: фейковые новостные сайты, созданные ИИ [13] . Newsguard уже обнаружила сотни таких сайтов, работающих на 15 разных языках, которые можно распознать по распространенным ошибкам и характерным шаблонам написания AI.
Источник [14]
Автор: dilnaz_04
Источник [15]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11718
URLs in this post:
[1] Deepseek-V3: https://the-decoder.com/deepseek-v3-emerges-as-chinas-most-powerful-open-source-language-model-to-date/
[2] возможности рассуждения модели R1: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/
[3] базу данных «Отпечатки ложной информации»: https://www.newsguardtech.com/solutions/misinformation-fingerprints/
[4] повторять: http://www.braintools.ru/article/4012
[5] подкреплять: http://www.braintools.ru/article/5528
[6] обучения: http://www.braintools.ru/article/5125
[7] тестов чат-ботов за декабрь 2024 года доступно здесь: https://www.newsguardtech.com/wp-content/uploads/2025/01/December2024AIMisinformationMonitor.pdf
[8] зрения: http://www.braintools.ru/article/6238
[9] реагировать: http://www.braintools.ru/article/1549
[10] форма контроля контента, распространенная в китайских моделях искусственного интеллекта: https://the-decoder.com/deepseeks-v3-is-the-latest-example-of-state-controlled-censorship-in-chinese-llms/
[11] интеллекта: http://www.braintools.ru/article/7605
[12] условия предоставления услуг Deepseek: https://chat.deepseek.com/downloads/DeepSeek%20Terms%20of%20Use.html
[13] фейковые новостные сайты, созданные ИИ: https://the-decoder.com/newsguard-identifies-nearly-1000-unreliable-ai-bot-websites-in-16-languages/
[14] Источник: https://the-decoder.com/deepseek-chatbot-fails-fact-checking-test-just-like-other-chatbots/
[15] Источник: https://habr.com/ru/companies/bothub/news/878132/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878132
Нажмите здесь для печати.