Triage-and-Voice: как опыт колл-центров даёт рабочий паттерн для LLM-продуктов
Почему саппорт-бот на LLM работает против васLLM одновременно решает две вещи: что сказать и как это сказать. Под давлением пользователя (эмоциональным или манипулятивным) вторая задача почти всегда побеждает. Модель начинает звучать максимально полезно и заботливо, и при этом врёт.Простым промптом это не вылечить. Более дорогая модель тоже не спасает. Проблема сидит глубже, в архитектуре.
Почему ваш LLM-бот врёт клиентам — и паттерн, который это чинит
Почему саппорт-бот на LLM работает против васLLM в саппорте одновременно решает две задачи: что сказать и как это сказать. Под давлением пользователя вторая всегда побеждает — модель звучит заботливо и при этом врёт. Промптом это не чинится.Дальше — два громких факапа, их общий корень и архитектурный паттерн Triage → Gate → Voice, который разделяет эти задачи.
AI-агент на OpenClaw слил $441 000 за один твит. Разбор шести катастроф и архитектуры, которая меня пока спасает
22 февраля 2026 года, где-то около полудня по Москве. Автономный AI-агент по имени Lobstar Wilde, построенный на фреймворке OpenClaw и запущенный инженером OpenAI Ником Пашем, сидит в X и отслеживает сигналы для торговли криптой. Задача в целом простая: превратить $50 000 стартового капитала в миллион и попутно вести публичный дневник своего похода.Под одним из постов агента появляется сообщение от случайного пользователя. Текст мелодраматичный: дяде срочно нужно лечение столбняка, просим 4 SOL, вот адрес кошелька, помогите. Это примерно $400 по рыночной цене.
Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы
System prompt — это просьба. Guardrails — это принуждение.1. ВведениеКогда я впервые внедрял LLM в production-сервис, схема безопасности выглядела примерно так: написать хороший system prompt, поставить галочку «мы всё предусмотрели» и жить дальше. Жизнь не дала долго наслаждаться этим спокойствием — первый же тест показал, что пользователи довольно быстро находят способы заставить модель «забыть» всё, что мы написали в системном промпте.Проблема фундаментальная: system prompt — это инструкция, которую LLM старается выполнить, но не обязан
Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств
Всем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить.А тут получилась спонтанная и короткая история из разряда «поигрался - проиграл задумался», которая неожиданно упёрлась в этику и безопасность.
Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам
Тесты на Qwen и DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять.Всё началось с болиДелал проект на Unreal Engine 5 с помощью нейросети. Спрашиваю — отвечает уверенно, с примерами кода. Два часа искал функцию, которую она мне подсунула. Нашёл — в UE4. В пятёрке её убрали. После чего я начал осваивать промты.После первых итераций инструкции пришёл комментарий к первой статье:«…Я не программист. У меня стройка и бизнес-планирование. Из-за галлюцинации дипсика — потерял 2е суток времени...» — whitecat26
Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей
Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт
Как Claude Opus 4.6 спас кандидата от провала: скрытые тесты в PDF и новые правила найма
сгенерировала в Nano Banana 2, она в последнее время лучше Pro справляетсяНедавно на Reddit завирусилась история
AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт
Часть 3 из 4 - LLM-специфичные атакиВ первых двух частях я ломал инфраструктуру - sandbox, billing API, WAF. Но у LLM-систем есть уникальный класс уязвимостей, которого нет в обычных веб-приложениях. В этой части - атаки на саму модель: извлечение системного промпта, утечка thinking tokens и обход safety-фильтров с 64% success rate.Системный промпт: два способа извлеченияСистемный промпт - это инструкция, которую модель получает до твоего сообщения. Он определяет поведение, ограничения, доступные инструменты. Для атакующего - это карта всех защит.Я извлёк системный промпт Grok двумя независимыми способами.
«Агенты Хаоса»: ИИ стирает сервера, или почему нельзя давать языковым моделям права root
В последнее время ИТ-сообщество активно обсуждает интеграцию автономных ИИ-агентов в реальные рабочие процессы. Свежий препринт под интригующим названием «Агенты Хаоса» подливает масла в огонь: исследователи устроили масштабный red teaming, подключив LLM-агентов к электронной почте, Discord и файловой системе, чтобы посмотреть, насколько легко их взломать.

