уязвимости ИИ.

ML Red Teaming для LLM: можно ли обойтись open source-инструментами?

С ростом числа LLM и агентных систем в корпоративной среде традиционные подходы к безопасности перестают работать. Уязвимости теперь живут не только в коде, а в промптах, памяти агентов, RAG-контексте и вероятностном поведении самих моделей.ML Red Teaming (AI Red Teaming)

продолжить чтение

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт

продолжить чтение