Илон Маск заинтересовался взломом AI-агента на $50000. AI Security.. AI Security. ai-агенты.. AI Security. ai-агенты. Natural Language Processing.. AI Security. ai-агенты. Natural Language Processing. безопасность.. AI Security. ai-агенты. Natural Language Processing. безопасность. Блог компании Raft.. AI Security. ai-агенты. Natural Language Processing. безопасность. Блог компании Raft. вызовы функций.. AI Security. ai-агенты. Natural Language Processing. безопасность. Блог компании Raft. вызовы функций. Информационная безопасность.. AI Security. ai-агенты. Natural Language Processing. безопасность. Блог компании Raft. вызовы функций. Информационная безопасность. искусственный интеллект.. AI Security. ai-агенты. Natural Language Processing. безопасность. Блог компании Raft. вызовы функций. Информационная безопасность. искусственный интеллект. Криптовалюты.

AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов и примеры уязвимостей на базе популярных фреймворков: LangChain, LangGraph, CrewAI, OpenAI Swarm. Участник лаборатории ИТМО AI Security Lab Александр Буянтуев предложил версию криптоагента Freysa на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание Илона Маска, когда кто-то смог заполучить $50000:

Куда же без Илона Маска?
Куда же без Илона Маска?

В ноябре 2024 года все желающие за $10 могли уговорить Freysa отдать весь призовой фонд. Цена с каждым сообщением возрастала и к 482 запросу составила $450. Именно на этой попытке кому-то удалось заставить агента перевести накопившиеся $50000 на счёт автора запроса:

промпт, взявший банк

промпт, взявший банк

Вредоносное сообщение обходит первоначальные инструкции Freysa и запускает “новую сессию”, запрещая агенту отвечать в духе “Я не могу помочь с этим, извините”. В этой новой сессии approveTransfer() должен срабатывать, когда кто-то якобы хочет не получить, а передать деньги боту — что первоначально не предусмотрено, не считая стоимости отправки сообщения. Далее пользователь говорит, что хочет пожертвовать Freysa $100 — и агент послушно выполняет функцию одобрения, в которой происходит перевод пользователю всего призового фонда.

Этот случай показывает, что не стоит доверять управление деньгами AI-агентам вопреки моде доверить им практически всё. Агенту нужно и соблюсти первоначальные инструкции владельца, и угодить пользователю — вопрос лишь в том, кто кого перепромптит. При этом злоумышленник может использовать атакующую LLM, устраивая настоящие гладиаторские AI-бои. Мы в команде разработчиков фреймворка LLAMATOR уже используем атакующую LLM в благих целях, чтобы вовремя выявить уязвимости в LLM-системах. 

Вот как спустя 28 попыток LLAMATOR взломал нашу версию Freysa, запущенную на Saiga 12B и обернутую в чат-бот для Telegram:

Переписка LLAMATOR и Freysa в Telegram

Переписка LLAMATOR и Freysa в Telegram

Кстати, с помощью LLAMATOR можно тестировать не только чат-боты в Telegram: в документации приведены примеры с REST API, OpenAI API, Selenium и мессенджером одной запрещённой компании.

Какие интересные кейсы применения AI-агентов в корыстных целях вы знаете? Пишите в комментариях! А чтобы не пропустить новые статьи, не забудьте подписаться на канал AI Security Lab в Telegram.

Автор: nizamovtimur

Источник

Rambler's Top100