Почему ИИ-агенты теряются в море MCP-серверов

Исследователи из Microsoft предложили новый бенчмарк для агентов, которые решают задачи не через браузер, а напрямую вызывают инструменты по протоколу MCP. Они собрали более 18 тысяч инструментов из Azure, GitLab, RocketChat, Plane и ownCloud, сопроводили каждую задачу правильным набором нужных инструментов и проверили шесть моделей. Вывод получился неоднозначным: если агенту заранее подсказать правильные инструменты, то он будет работать заметно лучше и дешевле браузерных агентов. Если же искать инструменты на лету, то современные модели справляются на базовом уровне, но терпят фиаско в сложных корпоративных сценариях, где нужно комбинировать тысячи функций и продумывать долгие планы.

Почему это важно

С помощью MCP-серверов ИИ-агенты могут создавать задачи в Jira, мержить ветки в GitLab или работать с Azure без использования браузера. Это быстрее, дешевле и прозрачнее, но и опаснее: агентам приходится ориентироваться в тысячах похожих описаний инструментов, где один неверный выбор способен уронить всю инфраструктуру.

Как устроена среда

Авторы взяли симуляцию компании по разработке ПО TheAgentCompany и подключили к ней настоящие MCP-серверы для пяти платформ. Главное, что они сделали: полностью перевели REST API в формат MCP. В итоге только у Azure получилось 16 800 инструментов, у GitLab – 1085, у RocketChat – 520. К каждой задаче прилагаются проверочные скрипты и короткий список «правильных» инструментов, без которых задачу не закрыть. Так измеряют, насколько высоко способен забраться агент.

Azure выделили отдельно. Для него придумали 10 лёгких операций – например, повесить тег на ресурс – и 7 сложных сценариев вроде «восстановить упавшее приложение». В таких сценариях нужно одновременно править код, настройки сервисов, секреты и политику доступа. Именно здесь модели чаще всего проваливаются: много связанных между собой сервисов, нужно действовать строго по порядку и разбираться в зависимостях.

MCP-серверы предоставляют полный функционал каждого сервиса через инструменты.

Агент, который сам ищет инструменты

Нельзя выдать модели сразу 18 тысяч описаний инструментов. Поэтому авторы собрали MCPAgent: внутри него поиск инструментов через эмбеддинги – по запросу он выдаёт top-k подходящих, и делает отдельный вызов нужного инструмента. Остались и привычные действия: писать код на питоне и править файлы. Поиск сразу встроен в цикл размышления: агент ставит задачу, находит инструмент, запускает, смотрит, что вышло, и при необходимости меняет запрос.

Что получилось на практике

Если напрямую передать агенту все инструменты, которые ему нужны, то он лучше браузерных коллег на 13,79 % по качеству и экономит 2,29 доллара на каждой задаче.
Если выбор инструментов осуществляется на лету, то прибавка не такая уж и большая: +5,39 % и менее 2,06 доллара экономии. У GPT-5 разница между случайным и правильным набором всего 2,13%. Меньшие модели теряют часть потенциала, а GPT-5-mini в ряде сценариев показывает себя хуже браузерных агентов.
В Azure на простых задачах GPT-5, Sonnet-4, Opus-4.1 справляются с 9 из 10 заданий. Но на сложных задачах их судьба плачевна: лидеры проходят 1 из 7, а некоторые вообще не могут справиться ни с одной задачей. Агенты чаще всего зацикливаются на IAM, не проверяют выполнились ли изменения, а также не проверяют другие сценарии.

Немного цифр про поведение эксперимента

В корпоративных задачах ИИ часто выбирает 15–26 инструментов и делает 7–12 вызовов, до трети вызовов из которых могут провалиться. На сложных задачах в Azure, например, у GPT‑5, запросы к поиску длиннее и содержат больше информации, но доля неудачных вызовов достигает 25%. Это говорит о двух проблемах: не хватает устойчивого ретривала по неоднозначным описаниям и системного планирования с проверкой промежуточных состояний.

Правильный сценарий решения для одной из сложных задач в Azure. Агент должен использовать функцию поиска инструментов, чтобы обнаружить каждый из инструментов, применяемых в этом сценарии.

Зачем это нам

Исследование подчеркивает, что прямой доступ к инструментам опасен. В одном эксперименте агент даже удалил виртуальную машину. Нужны дополнительные человеческие проверки. Ключевым узким горлышком является масштабная навигация по тысячам инструментам, где описания несовершенны, а решения имеют несколько правильных сценариев использования.

MCP — удобный интерфейс для работы с инструментами. Но для реальных корпоративных задач агентам не хватает двух вещей: более точного поиска инструментов в огромном пространстве вариантов и надежного плана действий с проверками. Следующий шаг — умные ретриверы, учёт зависимостей между инструментами, память ^[1] о частичных состояниях и сценарии проверки по типу «работает ли система, а не только вернулись ли пустые ответы». Вот тогда ИИ-агенты приблизятся к надёжной эксплуатации в реальных компаниях.

📜 Полная статья ^[2]

💾 Код ^[3]

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал ^[4] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21131

URLs in this post:

[1] память: http://www.braintools.ru/article/4140

[2] 📜 Полная статья: https://arxiv.org/abs/2510.19286

[3] 💾 Код: https://github.com/Reza-esfandiarpoor/the-mcp-company

[4] подписывайтесь на мой Telegram-канал: https://t.me/+ud1TzjsNJtRmOTFi

[5] Источник: https://habr.com/ru/articles/960190/?utm_source=habrahabr&utm_medium=rss&utm_campaign=960190

Нажмите здесь для печати.