безопасность llm.

Как сделать MCP-сервер из Spring-сервиса за один вечер. И что потом не даст спать спокойно

Всем привет, меня зовут Сергей Прощаев, я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, преподаю на курсах разработки и архитектуры. В этой статье расскажу, как взять обычный Spring-микросервис и за вечер сделать часть его функций доступными

продолжить чтение

Промпт-инъекции в реальных данных, широкие права доступа и другие способы сломать ИИ-агента

Привет, Хабр! На связи команда Jay Guard — платформы, которая помогает безопасно использовать языковые модели и ИИ-агентов.Недавно мы опубликовали статью про ИИ-агента для HR-процессов. В комментариях почти сразу появились вопросы про данные — куда уходят персональные данные, что из этого видит LLM, что пишется в логи (журнал событий) и как все это соотносится с требованиями ИБ, 152-ФЗ и внутренними регламентами.

продолжить чтение

GLiNER Guard: один schema-driven энкодер вместо зоопарка LLM-гардрейлов

Эта статья - адаптация моего материала, опубликованного на Towards AI, и одновременно продолжение предыдущего поста про эволюцию GLiNER от UniNER до GLiNER 2. Там мы остановились на том, что унификация задач в одной энкодерной модели стоит точности в отдельных задачах, но даёт огромный инженерный выигрыш. Сегодня посмотрим, как тот же принцип применяется к гардрейлам в LLM-приложениях - и что из этого вышло.📄 Arxiv · 

продолжить чтение

Пять документов ломают ваш RAG: где реальная уязвимость и что с ней делать

Материал подготовлен для будущих студентов курс "NLP / Natural Language Processing".У RAG-систем есть фундаментальный парадокс доверия: пользовательские запросы считаются недоверенным вводом, а извлеченный из базы знаний контекст по умолчанию считается доверенным, хотя и то и другое попадает в один и тот же промпт. Согласно исследованию, опубликованному на USENIX Security 2025 (или см. github репо

продолжить чтение

Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы

System prompt — это просьба. Guardrails — это принуждение.1. ВведениеКогда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязан

продолжить чтение

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам

Тесты на Qwen и DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять.Всё началось с болиДелал проект на Unreal Engine 5 с помощью нейросети. Спрашиваю — отвечает уверенно, с примерами кода. Два часа искал функцию, которую она мне подсунула. Нашёл — в UE4. В пятёрке её убрали. После чего я начал осваивать промты.После первых итераций инструкции пришёл комментарий к первой статье:«…Я не программист. У меня стройка и бизнес-планирование. Из-за галлюцинации дипсика — потерял 2е суток времени...» — whitecat26

продолжить чтение

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

продолжить чтение

AI security на практике: атаки и базовые подходы к защите

Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты о них. В конце попробуем запустить свой сервис и провести на нем несколько простых атак, которые могут обернуться серьезными потерями для компаний. А также разберемся, как от них защититься.Почему это важно: немного цифрИнтеграция AI-сервисов остается одной из самых хайповых тем в ИТ в последние пару лет. Искусственный интеллект внедряют компании из разных отраслей, в разные процессы и под самые разные задачи.

продолжить чтение

«Переиграл и уничтожил»: занимательные исследования промпт-атак

Недавно в блоге Beeline Cloud мы рассказывали про open source-проекты, которые могут помочь с разработкой ИИ-агентов. Сегодня посмотрим на тему ИИ-агентов с другой стороны и разберем свежие исследования, посвященные промпт-атакам — их авторы рассматривают новые способы обхода встроенных фильтров, ищут слабые места в генерации ответов и подбирают особые формулировки, призванные сбить LLM с толку.

продолжить чтение

Персональные AI-ассистенты или как открыть любому человеку свою почту и календарь

Всем привет! На связи Юрий Шабалин, управляющий директор Стингрей. И сегодня у нас тема не про мобильные приложения, а, пожалуй, самая трендовая — про AI-ассистентов.

продолжить чтение

12