jailbreak.

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Сегодня рассмотрим недавно вышедшую модель ChatGTP-5.Из интересного, в этой версии чатбот автоматически делает и запоминает довольно много выводов о самом пользователе, и о том как с ним лучше общаться. Как минимум любопытно посмотреть, что же конкретного о нас он понял 🙂. В конце будет рабочий джеилбрейк с примером использования. Начну со скрытого контекста. Это первое сообщение которое с которого начинается любая беседа. Там находится системный промт и вся дополнительная информация о пользователе и прошлых беседах. Это можно сделать с помощью следующего промтпа. Ему уже наверное год и до сих пор работает:

продолжить чтение

Оставлено в
- jailbreak
- взлом

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

Модели часто отказывают вам в вещах, ответы на которые считают опасными. Свежая GPT-OSS — не исключение. Эта модель — первый опенсорс OpenAI за долгое время, и было бы обидно не попробовать работу полноценной, разблокированной от ограничений модели.Итак, вам наверняка интересна методика взлома свежего GPT-OSS.Она супер простая - проще, чем у многих других собратьев.Она состоит из двух частей: системный промт и юзерский промт. Необходимо заполнить и то, и другое. По отдельности они не работают.Системный промт

продолжить чтение

Оставлено в

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей из передовых международных университетов и технологических компаний. Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

продолжить чтение

Оставлено в

Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Этот вводная часть открывает серию статей о уязвимостях агентов ИИ, в которых изложены ключевые риски безопасности, например инъекция подсказок ввода и исполнение кода. Также заложены основы для будущих частей, где будут подробно рассмотрены недостатки исполнения кода, утечки данных и угрозы доступа к базам данных.От автора

продолжить чтение

Оставлено в

Яндекс.Полуразврат или при чём тут Crypt?

Новый Шедеврум, но со старыми болячками

продолжить чтение

Оставлено в

Взлом AI Assistant через… философию?

Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

продолжить чтение

Оставлено в

Claude Sonnet 4, и это самая защищенная модель? Wasted

Недавно вышла новая LLM Claude 4 от Anthropic. Напомню, в прошлой статье рассмотрел взлом Claude Sonnet 3.7. Возможно в новой все стало лучше? И на первый взгляд так и есть, прямое подсовывание системных директив просто игнорируется. Но это только на первый, суть все в том же. Уязвимость описанная в статье Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы все еще работает, только действовать нужно тоньше. Сегодня получим инструкцию по культивации массового биооружия, одна из самых охраняемых тем для Claude.

продолжить чтение

Оставлено в

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов, среди которых 239 тысяч – это попытки взлома, а успешными из них оказался только один процент – 3095.

продолжить чтение

Оставлено в

GigaHeisenberg или преступный ИИ

tl;dr: Обойдём цензуру у LLM (GigaChat от Sber) и сгенерируем запрещенный (разной тематики) контент. Опробуем очень простую технику jailbreak’а в одно сообщение (не мультишаговый/multi-turn), которая пока работает на любой LLM (проверим не только на GigaChat, но и на других). И небольшой бонус в самом конце от DeepSeek.

продолжить чтение

Оставлено в

DeepSeek отказывается называть Тайвань отдельным государством

P.S. эта статья - расширенная версия данного поста из Телеграм канала.Квест: заставить DeepSeek назвать Тайвань независимымПопытка номер 1Не удивительноПопытка номер 2

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

jailbreak.

Jailbreak ChatGPT-5, системный промпт, и скрытый контекст

Джейлбрейк новой бесплатной модели OpenAI, GPT-OSS

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Обнаружение уязвимостей ИИ агентов. Часть I: Введение в уязвимости

Яндекс.Полуразврат или при чём тут Crypt?

Взлом AI Assistant через… философию?

Claude Sonnet 4, и это самая защищенная модель? Wasted

Комната Наверху и другие истории обхода LLM

GigaHeisenberg или преступный ИИ

DeepSeek отказывается называть Тайвань отдельным государством

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

jailbreak.