AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо
В прошлой главе я разобрал три провала чужих AI-агентов в проде - PocketOS, потерю production-базы Replit и сценарии GitHub Copilot, в которых агент действовал быстрее, чем человек успевал сказать стоп.Финал был честный: эти три - не про то, как делать правильно. Это места, где меня поймало бы, если бы я не прочитал разборы до того, как Lexis стал продуктом для людей.И я обещал в следующей главе перейти с уровня отдельные истории на уровень данных. Конкретно - две вещи.Первая: ProgramBench. Топ-модели, которые закрыли SWE-bench на 95%, на ProgramBench показывают 0% и 3%. Не упали на десять пунктов - обнулились.

