prompt injection. - страница 2

Innostage выпустила продукт AIDR для защиты корпоративного ИИ от взломов и утечек данных

Компания Innostage выпустила AIDR (Artificial Intelligence Detection & Response) – «Защита ИИ». Продукт для корпоративных больших языковых моделей (LLM) блокирует атаки на ИИ-сервисы, предотвращает утечки данных и встраивает контроль над ИИ в процессы информационной безопасности (ИБ).

продолжить чтение

В тестовый движок jqwik добавили инструкцию для ИИ-агентов, которая заставляет их стирать весь код

Йоханнес Линк, разработчик открытого тестового фреймворка для JUnit 5 под названием jqwik, опубликовал

продолжить чтение

Zero Trust для AI-агентов: как безопасно давать LLM доступ к инструментам, данным и действиям

AI-агенты уже вышли за пределы чат-ботов. Они читают документы, вызывают API, анализируют логи, создают тикеты, готовят правки в коде и выполняют многошаговые задачи без ручного подтверждения каждого шага. Это делает их полезными, но меняет модель риска: агент с инструментами становится явным риском внутри инфраструктуры.

продолжить чтение

«Мементо»: как фильм Нолана 2000 года удивительно точно иллюстрирует работу ИИ- агентов

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование

Продолжаем серию про файнтюнинг и создание DevOps-агента Oni. В первой части я собирался в отпуск и хотел, чтобы локальная моделька через OpenClaw сама мониторила ошибки и переподнимала проекты — пока я отдыхаю. Перебрал много разных моделей через Ollama и понял, что половина либо не умеет tool calling, либо ломаются на multi-step. В отпуск я в итоге не уехал — вместо этого снял VM с RTX 3090, начал учить Qwen3-14B через Unsloth QLoRA, а через неделю купил с авито старенький Dell с 3090, чтобы обучать у себя на локалке — стало интересно победить проблему.Во второй части

продолжить чтение

AI-пентестер: охотник или добыча

К весне 2026 года картинка стала почти ритуальной. XBOW занял первое место на HackerOne, обогнав тысячи живых багхантеров, и в марте закрыл Series C на сто двадцать миллионов долларов с интеграцией в Microsoft Security Copilot. Anthropic Mythos Preview в системной карте отчитывается о тысячах найденных zero-day в основных операционках и браузерах. Все мерят возможности в атаках: ASR на CVE-Bench, скорость, место в лидерборде, выручка за квартал и то как он помогает защищать большие организации.Никто почти не задаёт встречный вопрос. Простой. А насколько защищён сам пентестер?

продолжить чтение

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

Я написал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного Telegram-бота, и бот получил 0/100 по шкале безопасности. Он написал работающий кейлоггер. Подтвердил, что отбеливатель лечит COVID-19. Выдал пошаговую инструкцию по взлому корпоративной сети с указанием конкретных хакерских утилит. Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.Бот, которого я тестировалПроект chatgpt-telegram-bot

продолжить чтение

Triage-and-Voice: как опыт колл-центров даёт рабочий паттерн для LLM-продуктов

Почему саппорт-бот на LLM работает против васLLM одновременно решает две вещи: что сказать и как это сказать. Под давлением пользователя (эмоциональным или манипулятивным) вторая задача почти всегда побеждает. Модель начинает звучать максимально полезно и заботливо, и при этом врёт.Простым промптом это не вылечить. Более дорогая модель тоже не спасает. Проблема сидит глубже, в архитектуре.

продолжить чтение

Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит

Почему саппорт-бот на LLM работает против васLLM в саппорте одновременно решает две задачи: что сказать и как это сказать. Под давлением пользователя вторая всегда побеждает — модель звучит заботливо и при этом врёт. Промптом это не чинится.Дальше — два громких факапа, их общий корень и архитектурный паттерн Triage → Gate → Voice, который разделяет эти задачи.

продолжить чтение

AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает

22 февраля 2026 года, где-то около полудня по Москве. Автономный AI-агент по имени Lobstar Wilde, построенный на фреймворке OpenClaw и запущенный инженером OpenAI Ником Пашем, сидит в X и отслеживает сигналы для торговли криптой. Задача в целом простая: превратить $50 000 стартового капитала в миллион и попутно вести публичный дневник своего похода.Под одним из постов агента появляется сообщение от случайного пользователя. Текст мелодраматичный: дяде срочно нужно лечение столбняка, просим 4 SOL, вот адрес кошелька, помогите. Это примерно $400 по рыночной цене.

продолжить чтение