
Исследователи из Microsoft предложили новый бенчмарк для агентов, которые решают задачи не через браузер, а напрямую вызывают инструменты по протоколу MCP. Они собрали более 18 тысяч инструментов из Azure, GitLab, RocketChat, Plane и ownCloud, сопроводили каждую задачу правильным набором нужных инструментов и проверили шесть моделей. Вывод получился неоднозначным: если агенту заранее подсказать правильные инструменты, то он будет работать заметно лучше и дешевле браузерных агентов. Если же искать инструменты на лету, то современные модели справляются на базовом уровне, но терпят фиаско в сложных корпоративных сценариях, где нужно комбинировать тысячи функций и продумывать долгие планы.
Почему это важно
С помощью MCP-серверов ИИ-агенты могут создавать задачи в Jira, мержить ветки в GitLab или работать с Azure без использования браузера. Это быстрее, дешевле и прозрачнее, но и опаснее: агентам приходится ориентироваться в тысячах похожих описаний инструментов, где один неверный выбор способен уронить всю инфраструктуру.
Как устроена среда
Авторы взяли симуляцию компании по разработке ПО TheAgentCompany и подключили к ней настоящие MCP-серверы для пяти платформ. Главное, что они сделали: полностью перевели REST API в формат MCP. В итоге только у Azure получилось 16 800 инструментов, у GitLab – 1085, у RocketChat – 520. К каждой задаче прилагаются проверочные скрипты и короткий список «правильных» инструментов, без которых задачу не закрыть. Так измеряют, насколько высоко способен забраться агент.
Azure выделили отдельно. Для него придумали 10 лёгких операций – например, повесить тег на ресурс – и 7 сложных сценариев вроде «восстановить упавшее приложение». В таких сценариях нужно одновременно править код, настройки сервисов, секреты и политику доступа. Именно здесь модели чаще всего проваливаются: много связанных между собой сервисов, нужно действовать строго по порядку и разбираться в зависимостях.
Агент, который сам ищет инструменты
Нельзя выдать модели сразу 18 тысяч описаний инструментов. Поэтому авторы собрали MCPAgent: внутри него поиск инструментов через эмбеддинги – по запросу он выдаёт top-k подходящих, и делает отдельный вызов нужного инструмента. Остались и привычные действия: писать код на питоне и править файлы. Поиск сразу встроен в цикл размышления: агент ставит задачу, находит инструмент, запускает, смотрит, что вышло, и при необходимости меняет запрос.
Что получилось на практике
-
Если напрямую передать агенту все инструменты, которые ему нужны, то он лучше браузерных коллег на 13,79 % по качеству и экономит 2,29 доллара на каждой задаче.
-
Если выбор инструментов осуществляется на лету, то прибавка не такая уж и большая: +5,39 % и менее 2,06 доллара экономии. У GPT-5 разница между случайным и правильным набором всего 2,13%. Меньшие модели теряют часть потенциала, а GPT-5-mini в ряде сценариев показывает себя хуже браузерных агентов.
-
В Azure на простых задачах GPT-5, Sonnet-4, Opus-4.1 справляются с 9 из 10 заданий. Но на сложных задачах их судьба плачевна: лидеры проходят 1 из 7, а некоторые вообще не могут справиться ни с одной задачей. Агенты чаще всего зацикливаются на IAM, не проверяют выполнились ли изменения, а также не проверяют другие сценарии.
Немного цифр про поведение эксперимента
В корпоративных задачах ИИ часто выбирает 15–26 инструментов и делает 7–12 вызовов, до трети вызовов из которых могут провалиться. На сложных задачах в Azure, например, у GPT‑5, запросы к поиску длиннее и содержат больше информации, но доля неудачных вызовов достигает 25%. Это говорит о двух проблемах: не хватает устойчивого ретривала по неоднозначным описаниям и системного планирования с проверкой промежуточных состояний.
Зачем это нам
Исследование подчеркивает, что прямой доступ к инструментам опасен. В одном эксперименте агент даже удалил виртуальную машину. Нужны дополнительные человеческие проверки. Ключевым узким горлышком является масштабная навигация по тысячам инструментам, где описания несовершенны, а решения имеют несколько правильных сценариев использования.
MCP — удобный интерфейс для работы с инструментами. Но для реальных корпоративных задач агентам не хватает двух вещей: более точного поиска инструментов в огромном пространстве вариантов и надежного плана действий с проверками. Следующий шаг — умные ретриверы, учёт зависимостей между инструментами, память о частичных состояниях и сценарии проверки по типу «работает ли система, а не только вернулись ли пустые ответы». Вот тогда ИИ-агенты приблизятся к надёжной эксплуатации в реальных компаниях.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist


