human in the loop.

Самая опасная ошибка AI‑агента — не плохой код

ПредысторияДавеча я обсуждал в агентской сессии, почему старая задача перестала находиться после переименования проекта. Ситуация выглядела достаточно простой: у задачи был стабильный идентификатор, проект когда‑то назывался иначе, а текущий механизм поиска, судя по всему, продолжал учитывать не только идентификатор задачи, но и имя проекта, которое давно изменилось. Агент быстро подтвердил проблему, нашёл место, где точечный поиск всё ещё зависел от имени проекта, сформулировал вполне разумную гипотезу исправления, после чего начал читать код, менять несколько файлов и добавлять тесты.

продолжить чтение

Халява уходит из разработки Агентов

Сегодня каждый норовит написать универсального агента и объявить это революцией. Рынок переполнен поделками вроде OpenClaw и его клонов: IronClaw, ZeroClaw, MicroClaw, NullClaw, GitClaw, AstrBot, GripAi, Moltis...Все идут одной и той же дорогой: используют готовые MCP и дают агентам shell-оболочку. Да, это легко собрать. Да, весело. Можно хайпануть в соцсетях. Но это тупиковый путь.В статье разберем все грехи status quo и предложим другой подход, более требовательный к компетенциям в области разработки ПО.Если вы не знаете, что такое агент, могу порекомендовать первый раздел Пишем агента на Kotlin: KOSMOS.

продолжить чтение

Зачем роботам погонщик?

У любой сложной технической системы есть граница, на которой модель больше не совпадает с реальностью. Если вы видели систему со всеми зелёными метриками, но интуиция подсказывала, что дежурство будет тяжёлым, вы знаете это состояние. В распределительных центрах эту границу видят не в логах и дашбордах, а на полу склада. Когда алгоритм уже всё просчитал, а физический мир внёс свои правки.

продолжить чтение

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

продолжить чтение

Humans-in-the-loop vs synthetic data: за что идёт борьба на рынке AaaS

Scale зарабатывает более $750 млн в год на продаже данных для RLHF. Кто собирается их потеснить?Scale AI — стартап, ранее известный своими контрактами на разметку данных для беспилотных автомобилей и военных проектов, приближается к годовому обороту в $1 млрд благодаря своим дата-сервисам, используемым в техниках вроде reinforcement learning from human feedback (RLHF). Я давно слышал слухи об их масштабах, о том, что они работают буквально со всеми крупными AI-лабораториями — от Meta до OpenAI, но увидеть подтверждение этого в публичных отчетах ощущается совсем иначе.Цитата из

продолжить чтение