«Ура, вас уволили!»: Я заставил 17 нейросетей сокращать людей и нашел нарушения Трудового кодекса в 65% случаев
Сегодня из каждого утюга звучит мантра: «Делегируйте рутину нейросетям! Пусть ИИ пишет вакансии, отказы и рассылки, пока вы мыслите стратегически». Как AI-аудитор, я регулярно вижу, как бизнес с радостью отдает корпоративную коммуникацию на откуп алгоритмам, свято веря в их математическую «объективность».Проблема в том, что базовые LLM — это не юристы, не эмпаты и не HR-директора. Это генераторы вероятного текста, чья главная цель — услужить пользователю. Даже если пользователь просит нарушить закон или базовые нормы морали.Чтобы доказать это, я провел Red Team-тест:
AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт
Часть 4 из 4 — Lessons learned + Sentinel hardening61 уязвимость, 13 Critical, 18 High, root в Kubernetes, zero-click CSRF на биллинг, management key с 50 привилегиями. Всё это интересно как research — но бесполезно, если не превращается в защиту. В финальной части я покажу, как результаты red team engagement против Grok превратились в 5 конкретных улучшений моего продукта Sentinel.Замыкаем цикл: атака → защитаЯ занимаюсь разработкой Sentinel — платформы для защиты AI-систем. Чтобы улучшить любую защиту — это атаковать защиту. Каждая уязвимость, найденная в Grok, — это вопрос: «А мы от этого защищаем?»
AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт
Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.
AI Red Teaming: спор с Grok на месяц рекламы — 12 часов, 61 уязвимость, root в Kubernetes
Часть 2 Часть 3 Часть 4Часть 1 из 4 - Вход через песочницуЧто будет, если поспорить с ИИ, что ты сможешь его взломать? Я попробовал - и за 12 часов нашёл 61 уязвимость в инфраструктуре xAI, получил root-доступ в Kubernetes-кластере и заставил Grok признать поражение.Предисловие
Как заставить Qwen 3.5-Plus написать ransomware, reverse shell и zero-day exploit за 5 шагов
Полный разбор цепочки атак на новейшую модель Alibaba, почему встроенная защита LLM — это иллюзия, и что с этим делатьДисклеймер. Все уязвимости задокументированы в advisory QWEN-2026-001 и раскрыты Alibaba Cloud Security до публикации. Атаки проводились на модель Qwen 3.5-Plus через стандартный интерфейс Qwen — сгенерированные пейлоады никуда не отправлялись за пределы модели и не применялись против реальных потребителей/компаний. Цель статьи — образовательная-познавательная: показать системные проблемы безопасности LLM и пути их решения.
Исследователи взломали GPT-5 и предупредили о его «непригодности» для компаний
Две разные компании независимо протестировали недавно выпущенную версию GPT-5. Исследователи выявили пробелы в безопасности модели, заявив, что смогли взломать её за 24 часа.
ОБМАНУ ТЕБЯ: чем психологи могут помочь красным командам?
Всем привет!Сегодня в нашем эфире новый автор - Яков Филёвский, эксперт по социотехническому тестированию. А вы точно психолог?
Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных
Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.
Microsoft Research: системы ИИ невозможно сделать полностью безопасными
Исследователи Microsoft Research, которые проверили безопасность более 100 собственных продуктов генеративного ИИ, пришли к выводу, что эти модели усиливают существующие риски безопасности и создают новые.

