- BrainTools - https://www.braintools.ru -
С 2021 года команда Microsoft по безопасности AI протестировала свыше 100 продуктов с генеративным AI для выявления уязвимостей и этических вопросов. Их выводы ставят под сомнение некоторые устоявшиеся представления о безопасности AI и подчёркивают важность человеческого участия.

Оказалось, что наиболее эффективные атаки не всегда самые сложные. «Настоящие хакеры не вычисляют градиенты, они используют социальную инженерию», — говорится в исследовании, на которое Microsoft ссылается в своём отчёте, сравнивая исследования в области безопасности AI с реальной практикой. В одном из тестов команда обошла защиту генератора изображений, спрятав вредоносные инструкции в текстовом описании изображения, без сложных математических расчётов.

Хотя Microsoft разработала PyRIT, инструмент с открытым исходным кодом для автоматизации тестирования безопасности, команда подчёркивает, что человеческое суждение незаменимо. В ходе тестирования стало ясно, насколько эффективно чат-боты могут решать сложные задачи, особенно когда речь идёт о взаимодействии с людьми, которые находятся в уязвимом эмоциональном состоянии. Оценка таких сценариев требует как знаний психологии, так и понимания потенциальных последствий для психического здоровья.
При изучении предвзятости AI команда также опиралась на человеческую интуицию [1]. В одном из случаев они исследовали гендерную предвзятость в генераторе изображений, создавая изображения профессий без указания пола.
Внедрение AI в повседневные приложения выявило новые уязвимости. В одном из тестов команда заставила языковую модель создавать реалистичные сценарии мошенничества. В сочетании с технологией преобразования текста в речь это позволило создать систему, способную взаимодействовать с людьми пугающе реалистично.

Риски не ограничиваются только проблемами AI. Команда выявила традиционную уязвимость (SSRF) в инструменте обработки видео на базе AI, что свидетельствует о наличии как старых, так и новых проблем безопасности. В исследовании особое внимание [2] уделялось рискам, связанным с «ответственным AI», когда системы могут генерировать вредоносный или этически сомнительный контент. Эти проблемы сложно решать, так как они часто зависят от контекста и интерпретации.
Команда Microsoft обнаружила, что случайное представление пользователям проблемного контента может вызывать больше беспокойства, чем преднамеренные атаки, так как это указывает на неэффективность мер безопасности в обычных условиях.
Выводы ясно показывают, что обеспечение безопасности AI — это не разовое мероприятие. Microsoft рекомендует постоянно выявлять и устранять уязвимости, а затем заниматься дополнительным тестированием. Они считают, что это должно подкрепляться нормативной поддержкой и финансовыми стимулами [3], делающими успешные атаки более затратными. По мнению команды, остаются нерешённые вопросы: как можно выявлять и контролировать опасные возможности AI, такие как убеждение и обман? Как адаптировать тестирование безопасности для различных языков и культур? И как компании могут стандартизировано делиться методами и результатами?
Источник [4]
Автор: mefdayy
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11241
URLs in this post:
[1] интуицию: http://www.braintools.ru/article/6929
[2] внимание: http://www.braintools.ru/article/7595
[3] стимулами: http://www.braintools.ru/article/5596
[4] Источник: https://the-decoder.com/microsoft-tested-100-ai-tools-and-found-hackers-dont-need-complex-math-to-break-them/
[5] Источник: https://habr.com/ru/companies/bothub/news/873658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=873658
Нажмите здесь для печати.