Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео. jailbreak.. jailbreak. llm.. jailbreak. llm. mllm.. jailbreak. llm. mllm. Natural Language Processing.. jailbreak. llm. mllm. Natural Language Processing. безопасность.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом. видео.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом. видео. джейлбрейк.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом. видео. джейлбрейк. защита.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом. видео. джейлбрейк. защита. Информационная безопасность.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом. видео. джейлбрейк. защита. Информационная безопасность. искусственный интеллект.. jailbreak. llm. mllm. Natural Language Processing. безопасность. взлом. видео. джейлбрейк. защита. Информационная безопасность. искусственный интеллект. промпт.

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.

Основные атаки против мультимодальных моделей концентрируются на изображениях: это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. При этом видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение, что если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.

Чтобы усилить эффект, исследователи предложили метод Safety-Proximal Typographic Videos, или SPTV. Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких типографических изображений с вредоносным смыслом, но с разными формулировками и кадрами, близкими по распределению к безопасным данным. Для формализации задачи и подбора кадров авторы использовали сопоставление в двудольном графе и венгерский алгоритм, чтобы выбрать такие вредоносные кадры, которые одновременно достаточно разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.

Отдельно в статье показан метод защиты Video-aware System Prompt, или VSP, который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная защита не учитывает особенности временной обработки видео. Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а также устойчивость к динамическим визуальным шаблонам.

Автор: payusova

Источник