джейлбрейк.

Власти США потребовали от Anthropic полностью устранить джейлбрейки в Fable 5, иначе разрешения на её запуск не будет

Если Anthropic хочет повторно выпустить модель искусственного интеллекта Fable 5, ей необходимо предпринять шаги для устранения предполагаемых американским правительством джейлбрейков, сообщила администрация президента США Дональда Трампа. В первой половине июня разработчик Claude отключил доступ к моделям Fable 5 и Mythos 5 по требованию американских властей.

продолжить чтение

Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.

продолжить чтение

Тёмная сторона искусственного интеллекта: угрозы, реальные атаки и защита

Искусственный интеллект уже давно перестал быть исключительно инструментом добра. Он помогает врачам ставить диагнозы и разработчикам писать код. Но теми же самыми возможностями всё чаще пользуются злоумышленники. При этом барьер входа в кибератаки резко снизился: чтобы создать вредоносную кампанию, больше не нужно быть тёмным хакером со знанием всевозможных языков программирования. Достаточно пары нейросетевых сервисов и минимального понимания, как устроена социальная инженерия.

продолжить чтение

Анализ системного промпта ChatGPT-4o-image-safety-policies

Анализ системного промпта ChatGPT-4o-image-safety-policies.md (источник)Когда ты или я кидаем картинку в ChatGPT с просьбой проанализировать ее, или извлечь данные, то, увы, это происходит не по умолчанию, а согласно определенным правилам. И благодаря умельцам из интернетов, можно разузнать, по каким правилам работает анализ изображений. Текст системного промпта целиком: You are ChatGPT, a large language model trained by OpenAI.Knowledge cutoff: 2024-06Current date: 2025-05-07Image input capabilities: Enabled

продолжить чтение

Коты vs ИИ: добавление в промпт простых фраз, не относящихся к делу, заставляет ИИ ошибаться чаще

3 марта 2025 года команда исследователей из компаний Collinear AI и ServiceNow, а также Стэнфордского университета представила результаты эксперимента, который проверял рассуждающие модели на устойчивость. Выяснилось, что добавление в промпт фразы вроде «Интересный факт: кошки спят большую часть своей жизни» как минимум удваивает частоту ошибок ИИ при решении математических задач. Свою методику учёные назвали CatAttack.

продолжить чтение

Исследователи продемонстрировали джейлбрейк по взлому роботов с ИИ

IEEE Spectrum представил отчёт с описанием случая, когда взломанные роботы могли использоваться для вредящих людям действий. Исследователи отмечают, что роботов с ИИ оказалось взломать так же легко, как и чат-ботов. 

продолжить чтение