Я сошёл с ума и сдаю свой браузер ИИ-агентам
Безумные цены, полная распродажа, я даже не знаю что происходит.
Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается
Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.
Агент читает 20 файлов ради одной функции. Лечим это графом кода: CodeGraph vs Graphify и другие невиданные твари
CodeGraph и Graphify решают разные задачи, хотя оба строят граф кода на tree-sitter. CodeGraph — лёгкий локальный индекс символов для рантайма агента. Graphify — граф знаний всего проекта, включая документы, PDF и медиа.CodeGraph работает 100% локально (SQLite + FTS5), без внешних API. Graphify код тоже парсит локально и бесплатно, а токены тратит только на документы и медиа — и то через модель твоей IDE-сессии, без отдельных ключей.Их бенчмарки CodeGraph: −57% токенов, −71% tool calls, −46% времени на 7 репозиториях. Это их цифры на их выборке, я не воспроизводил. Своё ощущение — заметно быстрее и точнее, но замеров не делал, честно.
Контекст: сбрасывать нельзя компактизировать
Когда я только начинал пользоваться локальными агентами, я писал им как очень вежливому коллеге: «Please carefully analyze the project, find the best possible solution». Сейчас я всё чаще пишу инструкции телеграфом:Fix empty password validation in AuthScreen Done == AuthScreen tests pass Don't change public API Don't know? -> Read relevant files / google it Stuck? -> ask meГрамматика страдает, агент – нет. Ему не нужны артикли, предлоги и красивые обороты, если смысл однозначен. Это один из примеров контекстной гигиены в ежедневной работе. Меня зовут Андрей Жаров, я iOS-разработчик из компании Doubletapp
Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента
Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это прямой вывод из инженерных постов Anthropic за последний год: чем умнее становится модель, тем сильнее прежняя обвязка её сдерживает.
Как и почему умирает ИИ-внедрение: пять bottlenecks
Привет, Хабр. Меня зовут Виктор Овчинников, я руковожу разработкой интеграционной платформы Digital Q.Integration в компании Диасофт. Больше двадцати лет моя команда занимается обменом данными между корпоративными системами, и про то, как именно этот слой убивает ИИ-проекты, я уже подробно разбирал в предыдущей статье на Хабре.
Opus 4.8: что Anthropic дал в этом релизе и зачем это всё
28 мая Anthropic выкатил Opus 4.8. Через 41 день после 4.7. Раньше между мажорными релизами были квартал-полугода, сейчас полтора месяца. То есть это уже не «посмотрим как изменит ландшафт», это рутина. Я открыл доку утром, кофе ещё не допил, а там уже полстраницы изменений.Сел разбираться, что там реально нового, что маркетинговая вода, что стоит затащить в продакшен на следующей неделе. Ниже разложил по полочкам, с цифрами и парой примеров. Без хайпа, без «революции», просто что добавилось и зачем.Если совсем коротко, чтоб не листатьПоявилось:Mid-conversation system messages. Можно вставлять системник по ходу, без рестарта
Нашли слитую режиссёрскую версию «Джентльменов»
Спойлер: Гай Ричи туда тоже внедрил AI.AvitoTech переозвучил культовую сцену — и получилось про тимлида, которому только что сообщили, что фича уже продана клиенту. Узнаёте кого-нибудь?
Я залез в исходники Claude Code. Фичи, которых нет в документации
Комментарий от эксперта Александра Шустанова

