ai-агенты.

Я сошёл с ума и сдаю свой браузер ИИ-агентам

Безумные цены, полная распродажа, я даже не знаю что происходит.

Оставлено в

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.

продолжить чтение

Оставлено в

Агент читает 20 файлов ради одной функции. Лечим это графом кода: CodeGraph vs Graphify и другие невиданные твари

CodeGraph и Graphify решают разные задачи, хотя оба строят граф кода на tree-sitter. CodeGraph — лёгкий локальный индекс символов для рантайма агента. Graphify — граф знаний всего проекта, включая документы, PDF и медиа.CodeGraph работает 100% локально (SQLite + FTS5), без внешних API. Graphify код тоже парсит локально и бесплатно, а токены тратит только на документы и медиа — и то через модель твоей IDE-сессии, без отдельных ключей.Их бенчмарки CodeGraph: −57% токенов, −71% tool calls, −46% времени на 7 репозиториях. Это их цифры на их выборке, я не воспроизводил. Своё ощущение — заметно быстрее и точнее, но замеров не делал, честно.

продолжить чтение

Оставлено в

Контекст: сбрасывать нельзя компактизировать

Когда я только начинал пользоваться локальными агентами, я писал им как очень вежливому коллеге: «Please carefully analyze the project, find the best possible solution». Сейчас я всё чаще пишу инструкции телеграфом:Fix empty password validation in AuthScreen Done == AuthScreen tests pass Don't change public API Don't know? -> Read relevant files / google it Stuck? -> ask meГрамматика страдает, агент – нет. Ему не нужны артикли, предлоги и красивые обороты, если смысл однозначен. Это один из примеров контекстной гигиены в ежедневной работе. Меня зовут Андрей Жаров, я iOS-разработчик из компании Doubletapp

продолжить чтение

Оставлено в

Чем умнее модель, тем меньше ей нужно: четыре дисциплины production‑агента

Если твой агент обвешан пошаговыми инструкциями и десятком узких инструментов под каждый шаг — он, скорее всего, работает хуже, чем мог бы. Звучит контр‑интуитивно, но это прямой вывод из инженерных постов Anthropic за последний год: чем умнее становится модель, тем сильнее прежняя обвязка её сдерживает.

продолжить чтение

Оставлено в

Как и почему умирает ИИ-внедрение: пять bottlenecks

Привет, Хабр. Меня зовут Виктор Овчинников, я руковожу разработкой интеграционной платформы Digital Q.Integration в компании Диасофт. Больше двадцати лет моя команда занимается обменом данными между корпоративными системами, и про то, как именно этот слой убивает ИИ-проекты, я уже подробно разбирал в предыдущей статье на Хабре.

продолжить чтение

Оставлено в

Opus 4.8: что Anthropic дал в этом релизе и зачем это всё

28 мая Anthropic выкатил Opus 4.8. Через 41 день после 4.7. Раньше между мажорными релизами были квартал-полугода, сейчас полтора месяца. То есть это уже не «посмотрим как изменит ландшафт», это рутина. Я открыл доку утром, кофе ещё не допил, а там уже полстраницы изменений.Сел разбираться, что там реально нового, что маркетинговая вода, что стоит затащить в продакшен на следующей неделе. Ниже разложил по полочкам, с цифрами и парой примеров. Без хайпа, без «революции», просто что добавилось и зачем.Если совсем коротко, чтоб не листатьПоявилось:Mid-conversation system messages. Можно вставлять системник по ходу, без рестарта

продолжить чтение

Оставлено в

Нашли слитую режиссёрскую версию «Джентльменов»

Спойлер: Гай Ричи туда тоже внедрил AI.AvitoTech переозвучил культовую сцену — и получилось про тимлида, которому только что сообщили, что фича уже продана клиенту. Узнаёте кого-нибудь?

продолжить чтение