tool calling.

Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи

Я долго пользовался разными кодинг‑агентами, и на их фоне Claude Code для меня заметно выделялся: качеством решений, удобством работы и вниманием к деталям. В какой‑то момент мне захотелось не просто пользоваться таким инструментом, а понять, что на самом деле происходит у него под капотом. Так я сел писать собственного агента на Swift, с нуля, без использования готовых решений.

продолжить чтение

Оставлено в

Почему AI-агент с доступом к API опаснее обычного ChatGPT

продолжить чтение

Оставлено в

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.

продолжить чтение

Оставлено в

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам.

продолжить чтение

Оставлено в

Локальный запуск GLM-5.1

Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных) и контекстное окно 200K. По сравнению с GLM-5 в ней улучшены написание кода, работа с инструментами и логические задачи.

продолжить чтение

Оставлено в

Один скилл, четыре модели — что может пойти не так

На GitHub лежат сотни AI-скиллов. Скилл для code review, скилл для дебага, скилл для обработки PDF, скилл для анализа безопасности. Установил в Cursor или Claude Code — и твой AI-ассистент стал умнее. Звучит как npm install: поставил пакет, он работает.Но скилл — не пакет. Это текстовый файл с инструкциями, который читает языковая модель. А модели читают по-разному.

продолжить чтение

Оставлено в

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Переход от простых чат‑ботов к автономным агентным системам требует новых метрик контроля и понимания, насколько эффективно агенты взаимодействуют друг с другом и насколько точно они используют внешние инструменты.Почему старые подходы ломаютсяКогда у нас не один LLM‑чат, а целая группа агентов, которые сами вызывают функции и общаются между собой, старые методы оценки не работают. Нужно измерять две вещи: синергию (помогают ли агенты друг другу решить задачу или просто гоняют токены по кругу);

продолжить чтение

Оставлено в

Дроны над Дубаем и новостной агрегатор: Flask, MCP-сервер, AI-агент и Telegram-бот

28 февраля 2026 года я стоял у окна на 41-м этаже в JBR в Дубае и смотрел, как системы ПВО ОАЭ перехватывают иранские беспилотники прямо над моей головой. Полез в новости — в Google и Яндексе статья двухчасовой давности, Telegram‑каналы противоречат друг другу. Когда это происходит где‑то далеко, не придаёшь этому значения. Когда ты в центре событий, то хочешь знать оперативную информацию, желательно с push‑уведомлениями.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

tool calling.

Пишем кодинг‑агента на Swift с нуля: неочевидные сложности очевидной идеи

Почему AI-агент с доступом к API опаснее обычного ChatGPT

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Локальный запуск GLM-5.1

Один скилл, четыре модели — что может пойти не так

Как меняются метрики контроля при переходе от чат‑ботов к агентным системам

Дроны над Дубаем и новостной агрегатор: Flask, MCP-сервер, AI-агент и Telegram-бот

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

tool calling.