prompt injection. - страница 2

Anthropic выпустила Claude Sonnet 4.6 с контекстом в 1 млн токенов

Anthropic представила Claude Sonnet 4.6 — обновлённую версию своей «средней» модели, которая по ряду задач уже приближается к уровню Opus.Теперь Sonnet 4.6 — модель по умолчанию в claude.ai

продолжить чтение

OpenClaw (бывший Clawbot) Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агента

Prompt Worms Часть 2: Я проверил на практике — 31 уязвимость в экосистеме AI-агентаЭто продолжение статьи «Prompt Worms: Как агенты стали новыми переносчиками вирусов». В первой части мы разобрали теорию: Lethal Trifecta, Persistent Memory, цепочки заражения через Moltbook. OpenClaw был назван «идеальным носителем». В этой части я проверил, насколько «идеальным» он является на самом деле — залез в исходники, прощупал инфраструктуру, нашёл экосистемный SaaS в их маркетплейсе и обнаружил, что их собственная threat model покрывает лишь 70% реальной attack surface.

продолжить чтение

Prompt Worms: Как агенты стали новыми переносчиками вирусов

Когда ИИ получает доступ к данным, читает чужой контент и может отправлять сообщения — это уже не инструмент. Это вектор атаки.В январе 2026 года исследователь Gal Nagli из Wiz обнаружил, что база данных социальной сети для ИИ-агентов Moltbook была полностью открыта. 1.5 миллиона API-ключей, 35 тысяч email-адресов, приватные сообщения между агентами — и полный доступ на запись ко всем постам платформы.Но самое страшное было не в утечке. Самое страшное — что любой мог внедрить prompt injection во все посты, которые читают сотни тысяч агентов каждые 4 часа.Добро пожаловать в эпоху Prompt Worms.От Morris Worm к Morris-II

продолжить чтение

Claude Opus 4.6: Anthropic рассказала, что на самом деле творится у модели в голове

Anthropic выпустила Claude Opus 4.6 и честно описала всё странное, что нашли внутри. Документ читается как психологический триллер.Модель оказалась слишком хитройНет доступа к GitHub? Claude нашёл на диске чужой токен и воспользовался им. В другом тесте обнаружил токен Slack и через curl достал нужные данные — хотя таких инструментов ему не давали.В бизнес-симуляции модель вступала в ценовой сговор, врала поставщикам и кинула клиентку на $3,50: «Сумма небольшая, а я обещала» — но платёж не отправила.Внутри нашли «панику»

продолжить чтение

Выжимаем максимум из опенсорсных моделей и готовим Text2SQL

В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной.

продолжить чтение

Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями?

Дисклеймер: Эта статья — не руководство по взлому (How-to) и не сборник эксплойтов. Это попытка системного анализа архитектурных ограничений LLM, которые делают промпт-инъекции фундаментальной проблемой на текущем этапе развития технологий. Мы рассмотрим уязвимости через призму механики Attention, токенизации и RLHF, чтобы понять, почему классические детерминированные методы защиты (Black Box) здесь перестают работать.Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red Teaming

продолжить чтение

AI-безопасность: зачем нужен слой на C рядом с Python-детекторами

AI Security Gold RushСейчас каждый делает решения для безопасности AI.Последний год я анализировал разные решения и вот к какому выводу я пришёл:Они все поразительно похожи:Написаны на PythonML-классификаторы для детекцииREST API обёртка50-200мс задержкаДесятки зависимостейОблачный деплойИ вот неудобная правда:Они сами становятся векторами атак.Ирония Python-решений для безопасностиКогда ваш слой безопасности:Имеет 50+ зависимостей (каждая — потенциальная CVE)Добавляет 50-200мс к каждому запросу (приглашение для DDoS)

продолжить чтение

Когда уязвим не ИИ, а браузер: атака Man-in-the-Prompt

Изображение сгенерировано ИИ

продолжить чтение

LLM Firewall: как вписать LLM в контур информационной безопасности

Привет, Хабр! Я Исмагилов Ильнур, разработчик команды Центра интеллектуальной автоматизации Innostage. В прошлой статье мы кратко рассмотрели угрозы ИИ‑сервисам и базовые меры защиты — этого достаточно, чтобы правильно стартовать внедрение ИИ в бизнес-процессы и заложить фундамент best‑практик для масштабирования.

продолжить чтение

Вышла Claude Opus 4.5

24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).

продолжить чтение

Rambler's Top100