Почему многоагентные системы ломаются (и почему это нормально)
Есть ощущение, что мы сейчас живём в странный период: LLM-агенты уже умеют “делать работу”, но ещё не умеют быть предсказуемыми.На демке всё выглядит идеально: — один агент пишет код, — второй — тесты, — третий — делает ревью, — четвёртый — собирает артефакты и отчёт, — пятый — “оператор”, который всё это оркестрирует.Первые пару запусков ты сидишь и думаешь: “Ну всё. Завтра индустрия будет другой”. На третьем запуске агент уверенно сообщает: “Я исправил проблему”, и одновременно:аккуратно удаляет половину нужных миграций,“чуть-чуть” меняет контракт API,
LLM вместо «прочитаем потом»: анализ постмортемов и паттерны инцидентов
Ваши инциденты содержат основу для самых стратегических улучшений инфраструктуры — если вы умеете правильно их «слушать».TL;DR: Мы подключили LLM как ассистента для SRE и прогнали через него тысячи постмортемов, чтобы вытащить из архива повторяемые причины и сценарии отказов. Конвейер автоматически находит паттерны инцидентов — в нашем случае в основном вокруг хранилищ данных: Postgres, AWS DynamoDB, AWS ElastiCache, AWS S3 и Elasticsearch. Это заметно ускоряет разбор, подсвечивает скрытые точки напряжения и помогает формировать список приоритетных инвестиций в надёжность.
«Важно доставлять, а не понимать» — идеальный способ работы с нейросетями
«Важно доставлять, а не понимать» — звучит модно, а ломает всё по классике.Последние месяцы я вижу одну и ту же сцену.Кто-то начинает активно применять нейросети в разработке — и первые недели ощущение кайфовое: код появляется быстрее, задач закрывается больше, “как будто полетели”.А потом начинаются знакомые фразы:“стало больше багов, хотя писали быстрее”“вроде всё правильно, но не работает”“оно компилируется, значит норм”“главное — доставлять, а не понимать”Вот с последним тезисом я не согласен.
LLM модели: зарубежные VS отечественные
Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это лишь первый фильтр. Для CTO ключевой вопрос звучит иначе: какую комбинацию качества, стоимости, стабильности API, юридических ограничений и интеграций мы получим на реальной нагрузке. Я разобрал популярные модели через призму двух контуров: качество/бенчмарки и инфраструктурная пригодность.Сравнение бенчмарков
Три агента, один репозиторий, ноль менеджеров. Как я построил конвейер, где ИИ пишет, ревьюит и деплоит код
Месяц назад я закинул задачу на рефакторинг модуля авторизации и пошёл варить кофе. Кофе я допить не успел. Через двадцать три минуты пришло уведомление в ТГ: «staging обновлён, 94 теста пройдено, 0 упало».Открыл репозиторий. Ветка, diff на два экрана. Code review от второго агента. Три замечания, два по делу. Третий агент прогнал тесты и задеплоил.Код был чище, чем я обычно пишу по пятницам.Но до этого момента были три месяца граблей, упавший продакшен, и одна ночь, когда агенты сделали десятки бесполезных коммитов. Обо всём по порядку.Один агент. Один мозг. Ноль сомнений
Agent Teams в Claude Code: когда одного агента недостаточно
Anthropic добавила возможность координировать команду из нескольких Claude. Они общаются между собой, спорят и приходят к консенсусу.Для нетерпеливых: Что: Agent Teams — экспериментальная функция в Claude Code для координации нескольких экземпляров Claude, работающих как команда. В чём отличие от subagents: Subagents только отчитываются главному агенту. Agent Teams общаются между собой напрямую, ведут дебаты и координируют работу через общий task list.Когда использовать:Параллельный code review (security, performance, tests одновременно)
Прощай, Fail2Ban: усиливаем защиту Netbird и Caddy с CrowdSec
TL;DRМы перевели сервер управления Netbird VPN с Fail2Ban на CrowdSec, сократив «шум» от атак по SSH/HTTP на 99% и перейдя от реактивной модели (бан после 5 неудачных попыток) к превентивной (блокировка IP по коллективной разведке угроз ещё до того, как их трафик дойдёт до сервера). В этой статье разбираем, почему мы на это решились и как вы можете сделать так же, с пошаговыми примерами кода.Проблема: Fail2Ban в 2025 году
Созвоны как токсин, но не яд: как я выкинул половину встреч и впервые за долгое время перестал умирать к вечеру
Я жил в календаре. Встреча, встреча, статус, синк, планирование, разбор, созвон про созвон. В какой то момент я понял, что я не работаю, я просто пересаживаю мозг с темы на тему, а вечером у меня остается ноль сил и ощущение, что я весь день был занят чем то важным, но прод не стал лучше. В этой статье я расскажу, как я технически расковырял проблему встреч, как мы измеряли созвоны, как резали их без боли, какие правила сработали, какие сломались, и как сделать так, чтобы команда не превращалась в выжатый лимон. Будет много прагматики, три больших куска кода, и несколько приемов, которые я до сих пор считаю читерскими.
Claude Opus 4.6 vs GPT-5.3 Codex
Одновременно с релизом Claude Opus 4.6 и GPT-5.3 Codex стало понятно, что определенно нет одной лучшей модели на все случаи жизни. Они решают разные задачи и по-разному смотрят на роль ИИ в разработке: Opus ближе к архитектору и оркестратору агентов, Codex

