Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается
Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.
Память на миллион, а толку ноль: как мы спасали ИИ-агента от «тупости»
Память на миллион токенов: почему контекст забивается и как его чиститьНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru
Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит
Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам.
Production начинается там, где заканчивается вайбкодинг
В 2013 году мне казалось, что я отлично зарабатываю.Я уже около года фрилансил и получал что‑то порядка 100–120 тысяч рублей в месяц. Для того времени — очень неплохо.В голове математика была простая: аренда квартиры — около 25к, еда — около 15к.Значит, живу примерно на 40–50к, а всё остальное — свободные деньги.Поэтому покупка машины в кредит казалась нормальной идеей.Проблема была только в том, что я считал очень оптимистично.Я не учёл платную заочку. Не учёл лечение зубов, на которое как раз попал. И, конечно, не учёл, что машина — это не только ежемесячный платёж.
Метрики упали в лужу
Нередкая ситуация, когда ваша модель спокойно себе крутится в проме, но внезапно прибегают аналитики с криками «у нас упало качество, посмотрите что может быть не так».Причин может быть множество, но сегодня я расскажу про одну из самых распространенных причин падения качества модели - Distribution shift.
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
ВведениеLangChain обещает красивую жизнь: переключите модель одной строкой, подключите RAG за две, дайте агенту инструменты за три. На лендинге всё выглядит как конструктор LEGO — берёшь кубики, соединяешь, работает. На хакатоне это действительно так. В production — не совсем.Тезис «LangChain — overhead для production» не нов. Его обсуждают в каждом втором треде на Reddit и в комментариях на Хабре. Компания Octomind
Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью
Google представила два новых режима работы в Gemini API — Flex и Priority
Тестирование ML-систем: сложности, факапы и рабочие практики
Привет! Сегодня хочу поделиться опытом тестирования на ML-проекте. По моему опыту, о машинном обучении говорят много, а вот о его тестировании — заметно реже. На истину в последней инстанции не претендую, но надеюсь быть полезным. Если у вас был опыт тестирования ML – буду рад обсудить в комментариях!На всякий случай напомню: меня зовут Максим Белопросов, я QA Team Lead в компании 1221Systems и один из ответственных за направление автоматизированного тестирования.В этой статье я хочу рассказать:
1 700 коммитов без единой строчки руками: как я построил production-приложение на Elixir силами AI
Архитектура, TDD, инциденты и уроки 4 месяцев разработки с Claude CodeВ ноябре 2025 я начал эксперимент — построить полноценное финансовое приложение, не написав ни одной строчки кода руками. Спустя 4 месяца: 1 702 коммита, 3 880 тестов, 94.83% покрытие, два серьёзных production-инцидента и работающий продукт.Моя роль — архитектор и продакт. Я задаю направление, принимаю решения, ревьюю результат. AI реализует. Код руками не пишу.

