Почему ваша LLM-платформа — следующая цель: аудит безопасности AI-сервиса изнутри
Disclaimer: Всё описанное — результат санкционированного аудита безопасности по договору. Уязвимости ответственно раскрыты, ключи ротированы, домены и IP изменены. Статья — для понимания, не для воспроизведения.Мы искали уязвимости в RAG-платформе с десятками тысяч пользователей — а нашли доступ ко всей инфраструктуре и API-ключам с бюджетом в сотни тысяч долларов. Две недели мы строили сложные цепочки: SSRF через LangChain, инъекции в промпты, HTTP smuggling, CVE в десериализации. Ни одна не дала результата. А потом мы сделали один curl к открытому порту — и получили все ключи за 5 минут.
Ещё раз о Docker
Часть 1. ВведениеВ данной статье хотел бы обобщить знания и опыт, которые накопились за время использования Docker.И так, без долгих предисловий, в путь по океану наполненному синими китами!Важно понять, контейнер - это НЕ виртуальная машина. Это лишь обёртка для одного процесса, который может порождать другие процессы. Он использует ядро и память той системы на которой запущен. Он "эфeмерен" и должен создаваться и уничтожаться без боязни и жалости. Контейнер занимает меньше места и ресурсов, чем виртуальная машина, но не может хранить состояния (по умолчанию) Где Docker поможет, а где нет.
Auto AI Router: высокопроизводительный прокси-роутер для LLM API на Go
Если вы работаете с LLM-провайдерами, то наверняка сталкивались с одной и той же проблемой: у OpenAI лимит 100 RPM на ключ, у Vertex AI — свои квоты на проект, у Anthropic — отдельные ограничения. В итоге приходится держать несколько ключей, балансировать нагрузку вручную, следить, чтобы один заблокированный доступ не уронил всё приложение, и при этом хочется сохранить единый OpenAI-совсместимый эндпоинт для клиентского кода.Именно для этого и создан Auto AI Router
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает.Запуск ML-моделей в production-среде — это тот еще квест:
Я посадил AI-агента на свой VPS и перестал открывать SSH
Суббота, 11 вечера. Я в гостях, телефон в кармане. Приходит алерт от Grafana: «память на сервере 92%». Раньше сценарий был такой: достать ноутбук (если взял), подключиться через SSH, вспомнить, какой контейнер жрёт память, попробовать docker stats, найти проблему, решить. Если ноутбука нет — открыть Termius на телефоне, набирать команды на экранной клавиатуре и молиться, чтобы не опечататься в rm -rf.Сейчас я пишу в Telegram: «память 92%, разберись». Через минуту агент отвечает: контейнер с логами разросся до 3 ГБ, он уже почистил старые логи и рестартнул его, сейчас 54%. Я убираю телефон и возвращаюсь к разговору.
Охота на AI-инфраструктуру, часть 2: что делают с чужим Ollama — от трейдинг-ботов до контент-ферм
В первой части я рассказал, как ханипот поймал сканер MCP-серверов — новый вектор разведки, нацеленный на AI-инфраструктуру. Сегодня — про другую сторону: что происходит, когда атакующий находит открытый Ollama.Статья документирует реальные сессии злоупотребления открытыми LLM-инстансами: кто подключается, какие промпты шлёт, какие модели запрашивает. Данные собраны с трёх ханипотов (DE, US, RU) за март 2026.Зачем это нужноOllama — популярный способ запускать LLM локально. По умолчанию он слушает на 127.0.0.1:11434, но в Docker-окружении биндится на 0.0.0.0
Как заставить LLM считать точно: генерация кода вместо генерации ответов
Недавно в популярном Facebook-посте: «GPT работает всё хуже. Просишь пересчитать формулу на 600 грамм, он бодро выдаёт две по 300. Пора, видимо, валить».Проблема знакомая каждому, кто пытался использовать LLM для расчётов. Но это не деградация конкретной модели. Это фундаментальное ограничение архитектуры. И у него есть решение.Почему LLM не умеют считатьTransformer предсказывает следующий токен на основе вероятностного распределения. Когда вы просите модель умножить 18 на 38.76, она не вызывает калькулятор. Она генерирует последовательность символов, которая «похожа» на правильный ответ.
24 контейнера на VPS за $30-мес: как я заменил облака одним сервером
24 контейнера, 6 ГБ RAM, $30/мес. И все работает. Ну почтиСтекКомпонентВерсияСерверVPS 2 vCPU, 6 ГБ RAM, 29 ГБ SSD, Ubuntu 22.04ОркестрацияDocker Compose v2Reverse proxynginx:alpineБазы данныхMySQL 8.0, Redis 7, Elasticsearch 8.12.2РантаймыPHP 8.3 (FPM), Node.js 20, Python 3.11SSLgetssl (Let's Encrypt) + Cloudflare proxyМониторингDocker healthcheck + bash watchdog + Telegram-алертыПроблема
Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference
TL;DRМы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:hipMemGetInfo(free, total) CUDA error: invalid argumentПосле серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:kernel → ROCm runtime → ggml backendФинальное решение включало:переход на kernel 6.8стабилизацию ROCm runtimeиспользование llama.cpp + ROCmgrammar‑constrained decoding для strict sanity promptsВ итоге мы получили стабильный GPU inference:~42 токен/секgpu_busy_percent → до 100%
Воякс — аналитик ИИ-автоматизации
Woyax AI Process Auditor — ИИ-агент для автоматического аудита бизнес-процессов. Бот проводит серию интервью с сотрудниками компании через мессенджер, выявляет рутину и узкие места, извлекает структурированные инсайты и формирует отчёт с рекомендациями по ИИ-автоматизации. No-code AI-агент на базе n8n, RAG, Qdrant и нескольких LLM-провайдеров — построенный на одном VPS в Docker Compose.

