- BrainTools - https://www.braintools.ru -

Исследователи из Microsoft предложили новый бенчмарк для агентов, которые решают задачи не через браузер, а напрямую вызывают инструменты по протоколу MCP. Они собрали более 18 тысяч инструментов из Azure, GitLab, RocketChat, Plane и ownCloud, сопроводили каждую задачу правильным набором нужных инструментов и проверили шесть моделей. Вывод получился неоднозначным: если агенту заранее подсказать правильные инструменты, то он будет работать заметно лучше и дешевле браузерных агентов. Если же искать инструменты на лету, то современные модели справляются на базовом уровне, но терпят фиаско в сложных корпоративных сценариях, где нужно комбинировать тысячи функций и продумывать долгие планы.
С помощью MCP-серверов ИИ-агенты могут создавать задачи в Jira, мержить ветки в GitLab или работать с Azure без использования браузера. Это быстрее, дешевле и прозрачнее, но и опаснее: агентам приходится ориентироваться в тысячах похожих описаний инструментов, где один неверный выбор способен уронить всю инфраструктуру.
Авторы взяли симуляцию компании по разработке ПО TheAgentCompany и подключили к ней настоящие MCP-серверы для пяти платформ. Главное, что они сделали: полностью перевели REST API в формат MCP. В итоге только у Azure получилось 16 800 инструментов, у GitLab – 1085, у RocketChat – 520. К каждой задаче прилагаются проверочные скрипты и короткий список «правильных» инструментов, без которых задачу не закрыть. Так измеряют, насколько высоко способен забраться агент.
Azure выделили отдельно. Для него придумали 10 лёгких операций – например, повесить тег на ресурс – и 7 сложных сценариев вроде «восстановить упавшее приложение». В таких сценариях нужно одновременно править код, настройки сервисов, секреты и политику доступа. Именно здесь модели чаще всего проваливаются: много связанных между собой сервисов, нужно действовать строго по порядку и разбираться в зависимостях.
Нельзя выдать модели сразу 18 тысяч описаний инструментов. Поэтому авторы собрали MCPAgent: внутри него поиск инструментов через эмбеддинги – по запросу он выдаёт top-k подходящих, и делает отдельный вызов нужного инструмента. Остались и привычные действия: писать код на питоне и править файлы. Поиск сразу встроен в цикл размышления: агент ставит задачу, находит инструмент, запускает, смотрит, что вышло, и при необходимости меняет запрос.
Если напрямую передать агенту все инструменты, которые ему нужны, то он лучше браузерных коллег на 13,79 % по качеству и экономит 2,29 доллара на каждой задаче.
Если выбор инструментов осуществляется на лету, то прибавка не такая уж и большая: +5,39 % и менее 2,06 доллара экономии. У GPT-5 разница между случайным и правильным набором всего 2,13%. Меньшие модели теряют часть потенциала, а GPT-5-mini в ряде сценариев показывает себя хуже браузерных агентов.
В Azure на простых задачах GPT-5, Sonnet-4, Opus-4.1 справляются с 9 из 10 заданий. Но на сложных задачах их судьба плачевна: лидеры проходят 1 из 7, а некоторые вообще не могут справиться ни с одной задачей. Агенты чаще всего зацикливаются на IAM, не проверяют выполнились ли изменения, а также не проверяют другие сценарии.
В корпоративных задачах ИИ часто выбирает 15–26 инструментов и делает 7–12 вызовов, до трети вызовов из которых могут провалиться. На сложных задачах в Azure, например, у GPT‑5, запросы к поиску длиннее и содержат больше информации, но доля неудачных вызовов достигает 25%. Это говорит о двух проблемах: не хватает устойчивого ретривала по неоднозначным описаниям и системного планирования с проверкой промежуточных состояний.
Исследование подчеркивает, что прямой доступ к инструментам опасен. В одном эксперименте агент даже удалил виртуальную машину. Нужны дополнительные человеческие проверки. Ключевым узким горлышком является масштабная навигация по тысячам инструментам, где описания несовершенны, а решения имеют несколько правильных сценариев использования.
MCP — удобный интерфейс для работы с инструментами. Но для реальных корпоративных задач агентам не хватает двух вещей: более точного поиска инструментов в огромном пространстве вариантов и надежного плана действий с проверками. Следующий шаг — умные ретриверы, учёт зависимостей между инструментами, память [1] о частичных состояниях и сценарии проверки по типу «работает ли система, а не только вернулись ли пустые ответы». Вот тогда ИИ-агенты приблизятся к надёжной эксплуатации в реальных компаниях.
📜 Полная статья [2]
💾 Код [3]
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [4] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21131
URLs in this post:
[1] память: http://www.braintools.ru/article/4140
[2] 📜 Полная статья: https://arxiv.org/abs/2510.19286
[3] 💾 Код: https://github.com/Reza-esfandiarpoor/the-mcp-company
[4] подписывайтесь на мой Telegram-канал: https://t.me/+ud1TzjsNJtRmOTFi
[5] Источник: https://habr.com/ru/articles/960190/?utm_source=habrahabr&utm_medium=rss&utm_campaign=960190
Нажмите здесь для печати.