red teaming.

Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей

Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт

продолжить чтение

Как Red Teaming и человеческий креатив позволяют оценить риски внедрения LLM в бизнес-процессы

В кибербезопасности существует подход под названием Red Teaming — когда одна команда имитирует атакующего, а другая защищает систему. С появлением больших языковых моделей тот же принцип стал применяться к ИИ. Только теперь атакуют не серверы и базы данных, а сами LLM-агенты — системы, которые умеют рассуждать, выполнять команды и взаимодействовать с внешними инструментами. Red Team здесь ищет способы выявить уязвимости и подсветить риски модели, а Blue Team — защитить её. Именно на стыке этих подходов возникла новая область — Red Teaming LLM-агентов, где тестирование превращается в исследование границ самого искусственного интеллекта.

продолжить чтение

Как изменилась индустрия AI Security за 2025 год?

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд. Без маркетингового глянца, с открытыми разногласиями и скептицизмом там, где скептицизм заслужен.Участники дискуссии - Я, Артём Семенов, автор PWNAI; Борис Захир, автор канала Борис_ь с ml; Евгений Кокуйкин, создатель HiveTrace и автор канала Евгений Кокуйкин - Raft; и Владислав Тушканов

продолжить чтение

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red Teaming

продолжить чтение

LLM red teaming: полное руководство [+советы экспертов]

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

продолжить чтение

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

продолжить чтение

Microsoft Research: системы ИИ невозможно сделать полностью безопасными

Исследователи Microsoft Research, которые проверили безопасность более 100 собственных продуктов генеративного ИИ, пришли к выводу, что эти модели усиливают существующие риски безопасности и создают новые.

продолжить чтение