prompt injection. - страница 5

AI-безопасность: зачем нужен слой на C рядом с Python-детекторами

AI Security Gold RushСейчас каждый делает решения для безопасности AI.Последний год я анализировал разные решения и вот к какому выводу я пришёл:Они все поразительно похожи:Написаны на PythonML-классификаторы для детекцииREST API обёртка50-200мс задержкаДесятки зависимостейОблачный деплойИ вот неудобная правда:Они сами становятся векторами атак.Ирония Python-решений для безопасностиКогда ваш слой безопасности:Имеет 50+ зависимостей (каждая — потенциальная CVE)Добавляет 50-200мс к каждому запросу (приглашение для DDoS)

продолжить чтение

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Изображение сгенерировано ИИ

продолжить чтение

LLM Firewall: как вписать LLM в контур информационной безопасности

Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого достаточно, чтобы правильно стартовать внедрение ИИ в бизнес-процессы и заложить фундамент best‑практик для масштабирования.

продолжить чтение

Вышла Claude Opus 4.5

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

продолжить чтение

«Нейросеть, мы тебя отключим»: интервью о взломе LLM и реальной цене ИИ-инструментов

Первая полностью автоматизированная ИИ-атака уже случилась. Claude сам нашёл уязвимые компании, написал под них малварь, разослал её и начал шантажировать жертв с требованием выкупа в биткоинах. Взломано было 17 компаний. И это только начало.Сергей Зыбнев— Team Lead пентестер и специалист по безопасности больших языковых моделей. Это интервью записано в эфире телеграм-канала Ai4Dev — AI for Development

продолжить чтение

Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection

Команда AI for Devs подготовила перевод краткой выжимки свежих статей о безопасности LLM. Meta предлагает «Правило двух» — архитектурный принцип, ограничивающий права AI-агентов, чтобы защитить их от prompt injection. А исследователи из OpenAI, Anthropic и Google DeepMind показывают: все существующие защиты легко обходятся адаптивными атаками. На этих выходных мне попались две интересные работы о безопасности LLM и атаках через prompt injection.Agents Rule of Two: Практический подход к безопасности AI-агентовПервая статья — Agents Rule of Two: A Practical Approach to AI Agent Security

продолжить чтение

Обратная сторона ИИ: подводные камни передачи процессов нейросетям

Искусственный интеллект потихоньку делает жизнь проще, но он же становится источником рисков, особенно когда речь идет о нейросетях как о новом подрядчике. Когда компании их интегрируют, не всегда получается досконально продумать то, чем это может быть чревато. Сегодня я пытаюсь понять реальные риски внедрения нейросетей в рабочие процессы. Надеюсь на твои комментарии, наблюдения и страхи, Хабр!Нейросеть — новый подрядчик

продолжить чтение

Grok AI: публикация системных промптов и провал в архитектуре безопасности

В августе 2025 года компания xAI неожиданно обнародовала системные промпты своего чат-бота Grok. Этот шаг был объяснён стремлением к прозрачности после инцидентов с несанкционированным извлечением инструкций через prompt injection. Однако публикация не только вызвала интерес у специалистов по ИИ, но и обнажила уязвимости в архитектуре системы.

продолжить чтение

Яндекс.Полуразврат или при чём тут Crypt?

Новый Шедеврум, но со старыми болячками

продолжить чтение

Комната Наверху и другие истории обхода LLM

В марте 2025, компания Pangea провела конкурс – в нём поучаствовали более 800 участников из разных стран. Суть в том, что было несколько комнат – лабораторных, где участникам необходимо было реализовать атаки, обойдя защитные механизмы моделек. В общей сложности было прислано 329 тысяч промптов, среди которых 239 тысяч – это попытки взлома, а успешными из них оказался только один процент – 3095.

продолжить чтение