AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо
В прошлой главе я разобрал три провала чужих AI-агентов в проде - PocketOS, потерю production-базы Replit и сценарии GitHub Copilot, в которых агент действовал быстрее, чем человек успевал сказать стоп.Финал был честный: эти три - не про то, как делать правильно. Это места, где меня поймало бы, если бы я не прочитал разборы до того, как Lexis стал продуктом для людей.И я обещал в следующей главе перейти с уровня отдельные истории на уровень данных. Конкретно - две вещи.Первая: ProgramBench. Топ-модели, которые закрыли SWE-bench на 95%, на ProgramBench показывают 0% и 3%. Не упали на десять пунктов - обнулились.
Тестирование AI-систем и роль MCP-сервера: теория и практика глазами QA
«Машина может пересчитать все звёзды на небе, но не может понять, зачем человек смотрит на них». — Айзек АзимовВ одну из пятниц у нас была обычная онлайн‑встреча. Еженедельный обмен знаниями, так сказать. Коллега решил показать что‑то «интересное про MCP» — и началось всё безобидно, с классического объяснения теоретической части. Но спустя час было очень тихо на звонке. Никто не перебивал, не шутил, не задавал вопросов, просто все слушали и пытались осознать происходящее. Тема оказалась куда глубже, чем мы ожидали, и, как выяснилось, напрямую касается того, чем мы занимаемся каждый день.

