Почему мы спорим о памяти для AI-агентов
ВведениеНа днях читал статью про память для AI-агентов — одну из тех, где рядом мирно уживаются SQLite, экономия токенов, поиск по накопленным знаниям и надежда наконец перестать кормить модель одними и теми же простынями контекста при каждом новом запуске.
Самая опасная ошибка AI‑агента — не плохой код
ПредысторияДавеча я обсуждал в агентской сессии, почему старая задача перестала находиться после переименования проекта. Ситуация выглядела достаточно простой: у задачи был стабильный идентификатор, проект когда‑то назывался иначе, а текущий механизм поиска, судя по всему, продолжал учитывать не только идентификатор задачи, но и имя проекта, которое давно изменилось. Агент быстро подтвердил проблему, нашёл место, где точечный поиск всё ещё зависел от имени проекта, сформулировал вполне разумную гипотезу исправления, после чего начал читать код, менять несколько файлов и добавлять тесты.
Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается
Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.
Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента
Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это прямой вывод из инженерных постов Anthropic за последний год: чем умнее становится модель, тем сильнее прежняя обвязка её сдерживает.
Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG
Мультимодальность в ИИ-агентахНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru
Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»
Память на миллион токенов: почему контекст забивается и как его чиститьНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам.
От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде
Агент 1С-консультант: от RAG-прототипа до агента в продакшнеНа связи Сергей Смирнов, AI-инженер LLMStart.ru
Анатомия production AI агента: разбор двух открытых промптов Anthropic
Год назад, в мае 2025, инженеры Anthropic вышли на Code w/ Claude с докладом «Prompting for Agents». Семь принципов промптинга, публичный workbench в браузере, пара примеров системных инструкций — этого было достаточно, чтобы собрать рабочего агента. Через месяц, 15 июня 2026, Anthropic выводит из эксплуатации модели claude-sonnet-4-0 и claude-opus-4-0 — те самые, на которых строился публичный workbench из того доклада.
Harness вокруг LLM: что я понял за год ежедневной работы
Год в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный.Англоязычные инженеры называют эту обвязку harness

