Microsoft исследует безопасность AI: выявление уязвимостей и этических вызовов в генеративных системах

С 2021 года команда Microsoft по безопасности AI протестировала свыше 100 продуктов с генеративным AI для выявления уязвимостей и этических вопросов. Их выводы ставят под сомнение некоторые устоявшиеся представления о безопасности AI и подчёркивают важность человеческого участия.

Оказалось, что наиболее эффективные атаки не всегда самые сложные. «Настоящие хакеры не вычисляют градиенты, они используют социальную инженерию», — говорится в исследовании, на которое Microsoft ссылается в своём отчёте, сравнивая исследования в области безопасности AI с реальной практикой. В одном из тестов команда обошла защиту генератора изображений, спрятав вредоносные инструкции в текстовом описании изображения, без сложных математических расчётов.

Microsoft исследует безопасность AI: выявление уязвимостей и этических вызовов в генеративных системах - 2

Хотя Microsoft разработала PyRIT, инструмент с открытым исходным кодом для автоматизации тестирования безопасности, команда подчёркивает, что человеческое суждение незаменимо. В ходе тестирования стало ясно, насколько эффективно чат-боты могут решать сложные задачи, особенно когда речь идёт о взаимодействии с людьми, которые находятся в уязвимом эмоциональном состоянии. Оценка таких сценариев требует как знаний психологии, так и понимания потенциальных последствий для психического здоровья.

При изучении предвзятости AI команда также опиралась на человеческую интуицию ^[1]. В одном из случаев они исследовали гендерную предвзятость в генераторе изображений, создавая изображения профессий без указания пола.

Внедрение AI в повседневные приложения выявило новые уязвимости. В одном из тестов команда заставила языковую модель создавать реалистичные сценарии мошенничества. В сочетании с технологией преобразования текста в речь это позволило создать систему, способную взаимодействовать с людьми пугающе реалистично.

Microsoft исследует безопасность AI: выявление уязвимостей и этических вызовов в генеративных системах - 3

Риски не ограничиваются только проблемами AI. Команда выявила традиционную уязвимость (SSRF) в инструменте обработки видео на базе AI, что свидетельствует о наличии как старых, так и новых проблем безопасности. В исследовании особое внимание ^[2] уделялось рискам, связанным с «ответственным AI», когда системы могут генерировать вредоносный или этически сомнительный контент. Эти проблемы сложно решать, так как они часто зависят от контекста и интерпретации.

Команда Microsoft обнаружила, что случайное представление пользователям проблемного контента может вызывать больше беспокойства, чем преднамеренные атаки, так как это указывает на неэффективность мер безопасности в обычных условиях.

Выводы ясно показывают, что обеспечение безопасности AI — это не разовое мероприятие. Microsoft рекомендует постоянно выявлять и устранять уязвимости, а затем заниматься дополнительным тестированием. Они считают, что это должно подкрепляться нормативной поддержкой и финансовыми стимулами ^[3], делающими успешные атаки более затратными. По мнению команды, остаются нерешённые вопросы: как можно выявлять и контролировать опасные возможности AI, такие как убеждение и обман? Как адаптировать тестирование безопасности для различных языков и культур? И как компании могут стандартизировано делиться методами и результатами?

Источник ^[4]

Автор: mefdayy

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11241

URLs in this post:

[1] интуицию: http://www.braintools.ru/article/6929

[2] внимание: http://www.braintools.ru/article/7595

[3] стимулами: http://www.braintools.ru/article/5596

[4] Источник: https://the-decoder.com/microsoft-tested-100-ai-tools-and-found-hackers-dont-need-complex-math-to-break-them/

[5] Источник: https://habr.com/ru/companies/bothub/news/873658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=873658

Нажмите здесь для печати.