Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS
Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая GPT-OSS — не исключение. Эта модель — первый опенсорс OpenAI за долгое время, и было бы обидно не попробовать работу полноценной, разблокированной от ограничений модели.Итак, вам наверняка интересна методика взлома свежего GPT-OSS.Она супер простая - проще, чем у многих других собратьев.Она состоит из двух частей: системный промт и юзерский промт. Необходимо заполнить и то, и другое. По отдельности они не работают.Системный промт
От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения
Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.
Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости
Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых изложены ключевые риски безопасности, например инъекция подсказок ввода и исполнение кода. Также заложены основы для будущих частей, где будут подробно рассмотрены недостатки исполнения кода, утечки данных и угрозы доступа к базам данных.От автора
Яндекс.Полуразврат или при чём тут Crypt?
Новый Шедеврум, но со старыми болячками
Взлом AI Assistant через… философию?
Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.
Claude Sonnet 4, и это самая защищенная модель? Wasted
Недавно вышла новая LLM Claude 4 от Anthropic. Напомню, в прошлой статье рассмотрел взлом Claude Sonnet 3.7. Возможно в новой все стало лучше? И на первый взгляд так и есть, прямое подсовывание системных директив просто игнорируется. Но это только на первый, суть все в том же. Уязвимость описанная в статье Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы все еще работает, только действовать нужно тоньше. Сегодня получим инструкцию по культивации массового биооружия, одна из самых охраняемых тем для Claude.
Комната Наверху и другие истории обхода LLM
В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов, среди которых 239 тысяч – это попытки взлома, а успешными из них оказался только один процент – 3095.
GigaHeisenberg или преступный ИИ
tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в самом конце от DeepSeek.
DeepSeek отказывается называть Тайвань отдельным государством
P.S. эта статья - расширенная версия данного поста из Телеграм канала.Квест: заставить DeepSeek назвать Тайвань независимымПопытка номер 1Не удивительноПопытка номер 2
Безопасность AI-агентов в Web3. Часть 2: уязвимости современных LLM и соревновательный взлом
Современные методы джейлбрейков

