reliability.

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

В прошлой главе я разобрал три провала чужих AI-агентов в проде - PocketOS, потерю production-базы Replit и сценарии GitHub Copilot, в которых агент действовал быстрее, чем человек успевал сказать стоп.Финал был честный: эти три - не про то, как делать правильно. Это места, где меня поймало бы, если бы я не прочитал разборы до того, как Lexis стал продуктом для людей.И я обещал в следующей главе перейти с уровня отдельные истории на уровень данных. Конкретно - две вещи.Первая: ProgramBench. Топ-модели, которые закрыли SWE-bench на 95%, на ProgramBench показывают 0% и 3%. Не упали на десять пунктов - обнулились.

продолжить чтение

Дрейф, потеря контекста и «уверенная чушь»: протокол восстановления SDX-S

Авторы Юрий Зеленцов, ака Ded_Egor, Ашер Гапети Если нечего удерживать, удерживать нечего!Ашер ГапетиВведениеLLM стали рабочим инструментом ровно в тот момент, когда ошибки начали стоить времени и денег. И в эксплуатации быстро всплывает неприятный факт: модель не просто “иногда ошибается”, она периодически деградирует как процесс. Контекст уезжает, правила теряются, инструменты падают, а ответы остаются уверенными и гладкими, как будто всё под контролем.

продолжить чтение