Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи
Я долго пользовался разными кодинг‑агентами, и на их фоне Claude Code для меня заметно выделялся: качеством решений, удобством работы и вниманием к деталям. В какой‑то момент мне захотелось не просто пользоваться таким инструментом, а понять, что на самом деле происходит у него под капотом. Так я сел писать собственного агента на Swift, с нуля, без использования готовых решений.
Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается
Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам.
Локальный запуск GLM-5.1
Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных) и контекстное окно 200K. По сравнению с GLM-5 в ней улучшены написание кода, работа с инструментами и логические задачи.
Один скилл, четыре модели — что может пойти не так
На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает.Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному.
Как меняются метрики контроля при переходе от чат‑ботов к агентным системам
Переход от простых чат‑ботов к автономным агентным системам требует новых метрик контроля и понимания, насколько эффективно агенты взаимодействуют друг с другом и насколько точно они используют внешние инструменты.Почему старые подходы ломаютсяКогда у нас не один LLM‑чат, а целая группа агентов, которые сами вызывают функции и общаются между собой, старые методы оценки не работают. Нужно измерять две вещи: синергию (помогают ли агенты друг другу решить задачу или просто гоняют токены по кругу);
Дроны над Дубаем и новостной агрегатор: Flask, MCP-сервер, AI-агент и Telegram-бот
28 февраля 2026 года я стоял у окна на 41-м этаже в JBR в Дубае и смотрел, как системы ПВО ОАЭ перехватывают иранские беспилотники прямо над моей головой. Полез в новости — в Google и Яндексе статья двухчасовой давности, Telegram‑каналы противоречат друг другу. Когда это происходит где‑то далеко, не придаёшь этому значения. Когда ты в центре событий, то хочешь знать оперативную информацию, желательно с push‑уведомлениями.

