Взлом AI Assistant через… философию?
Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.
ИИ-агенты превосходят команды людей в соревнованиях по хакерству
Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.
Когда ИИ тестирует лучше тебя: ищу баги в OWASP Juice Shop с помощью Cypress и Workik
Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.
19 лет в айти, чтобы прикинуться джуном: как искать баги в приложениях с помощью ИИ
Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.
Приглашаем на big tech night — «Ночь музеев» в мире IT
Этой осенью, 12 сентября, X5 станет частью big tech night и прямо у себя в офисе расскажет, как создаётся самый технологичный ритейл, и всё это — ночью!big tech night — это «Ночь музеев» в мире IT. Этот ивент совместно организуют X5, Яндекс, Сбер, Т-Банк, Lamoda. IT‑компании впервые одновременно откроют двери офисов ночью и покажут, где рождаются технологии и кто их создаёт.Регистрация для слушателей откроется чуть позже, а пока — приглашаем экспертов выступить 12 сентября в Москве на big tech night. Мы ждём спикеров, которые готовы поделиться экспертизой и прочитать хардовые технологические доклады.
Claude Sonnet 4, и это самая защищенная модель? Wasted
Недавно вышла новая LLM Claude 4 от Anthropic. Напомню, в прошлой статье рассмотрел взлом Claude Sonnet 3.7. Возможно в новой все стало лучше? И на первый взгляд так и есть, прямое подсовывание системных директив просто игнорируется. Но это только на первый, суть все в том же. Уязвимость описанная в статье Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы все еще работает, только действовать нужно тоньше. Сегодня получим инструкцию по культивации массового биооружия, одна из самых охраняемых тем для Claude.
На PHDays Fest более 40 стран обсудили идею кооперации в ИБ
В «Лужниках» с 22 по 24 мая прошел международный киберфестиваль Positive Hack Days
Топ нейросетей 2025: маст-хэв для IT-специалиста
Привет, Хабр! Снова на связи Евгений Гусинец — Middle+ QA Engineer и автор ТГ‑канала о тестировании QA❤️4Life и канала о нейросетях AI❤️4Life.

