Почему ИИ-агенты теряются в море MCP-серверов. llm.. llm. агенты.. llm. агенты. искусственный интеллект.. llm. агенты. искусственный интеллект. Машинное обучение.

Почему ИИ-агенты теряются в море MCP-серверов - 1

Исследователи из Microsoft предложили новый бенчмарк для агентов, которые решают задачи не через браузер, а напрямую вызывают инструменты по протоколу MCP. Они собрали более 18 тысяч инструментов из Azure, GitLab, RocketChat, Plane и ownCloud, сопроводили каждую задачу правильным набором нужных инструментов и проверили шесть моделей. Вывод получился неоднозначным: если агенту заранее подсказать правильные инструменты, то он будет работать заметно лучше и дешевле браузерных агентов. Если же искать инструменты на лету, то современные модели справляются на базовом уровне, но терпят фиаско в сложных корпоративных сценариях, где нужно комбинировать тысячи функций и продумывать долгие планы.

Почему это важно

С помощью MCP-серверов ИИ-агенты могут создавать задачи в Jira, мержить ветки в GitLab или работать с Azure без использования браузера. Это быстрее, дешевле и прозрачнее, но и опаснее: агентам приходится ориентироваться в тысячах похожих описаний инструментов, где один неверный выбор способен уронить всю инфраструктуру.

Как устроена среда

Авторы взяли симуляцию компании по разработке ПО TheAgentCompany и подключили к ней настоящие MCP-серверы для пяти платформ. Главное, что они сделали: полностью перевели REST API в формат MCP. В итоге только у Azure получилось 16 800 инструментов, у GitLab – 1085, у RocketChat – 520. К каждой задаче прилагаются проверочные скрипты и короткий список «правильных» инструментов, без которых задачу не закрыть. Так измеряют, насколько высоко способен забраться агент.

Azure выделили отдельно. Для него придумали 10 лёгких операций – например, повесить тег на ресурс – и 7 сложных сценариев вроде «восстановить упавшее приложение». В таких сценариях нужно одновременно править код, настройки сервисов, секреты и политику доступа. Именно здесь модели чаще всего проваливаются: много связанных между собой сервисов, нужно действовать строго по порядку и разбираться в зависимостях.

MCP-серверы предоставляют полный функционал каждого сервиса через инструменты.

Агент, который сам ищет инструменты

Нельзя выдать модели сразу 18 тысяч описаний инструментов. Поэтому авторы собрали MCPAgent: внутри него поиск инструментов через эмбеддинги – по запросу он выдаёт top-k подходящих, и делает отдельный вызов нужного инструмента. Остались и привычные действия: писать код на питоне и править файлы. Поиск сразу встроен в цикл размышления: агент ставит задачу, находит инструмент, запускает, смотрит, что вышло, и при необходимости меняет запрос.

Что получилось на практике

Если напрямую передать агенту все инструменты, которые ему нужны, то он лучше браузерных коллег на 13,79 % по качеству и экономит 2,29 доллара на каждой задаче.
Если выбор инструментов осуществляется на лету, то прибавка не такая уж и большая: +5,39 % и менее 2,06 доллара экономии. У GPT-5 разница между случайным и правильным набором всего 2,13%. Меньшие модели теряют часть потенциала, а GPT-5-mini в ряде сценариев показывает себя хуже браузерных агентов.
В Azure на простых задачах GPT-5, Sonnet-4, Opus-4.1 справляются с 9 из 10 заданий. Но на сложных задачах их судьба плачевна: лидеры проходят 1 из 7, а некоторые вообще не могут справиться ни с одной задачей. Агенты чаще всего зацикливаются на IAM, не проверяют выполнились ли изменения, а также не проверяют другие сценарии.

Немного цифр про поведение эксперимента

В корпоративных задачах ИИ часто выбирает 15–26 инструментов и делает 7–12 вызовов, до трети вызовов из которых могут провалиться. На сложных задачах в Azure, например, у GPT‑5, запросы к поиску длиннее и содержат больше информации, но доля неудачных вызовов достигает 25%. Это говорит о двух проблемах: не хватает устойчивого ретривала по неоднозначным описаниям и системного планирования с проверкой промежуточных состояний.

Правильный сценарий решения для одной из сложных задач в Azure. Агент должен использовать функцию поиска инструментов, чтобы обнаружить каждый из инструментов, применяемых в этом сценарии.

Зачем это нам

Исследование подчеркивает, что прямой доступ к инструментам опасен. В одном эксперименте агент даже удалил виртуальную машину. Нужны дополнительные человеческие проверки. Ключевым узким горлышком является масштабная навигация по тысячам инструментам, где описания несовершенны, а решения имеют несколько правильных сценариев использования.

MCP — удобный интерфейс для работы с инструментами. Но для реальных корпоративных задач агентам не хватает двух вещей: более точного поиска инструментов в огромном пространстве вариантов и надежного плана действий с проверками. Следующий шаг — умные ретриверы, учёт зависимостей между инструментами, память о частичных состояниях и сценарии проверки по типу «работает ли система, а не только вернулись ли пустые ответы». Вот тогда ИИ-агенты приблизятся к надёжной эксплуатации в реальных компаниях.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник

Запись добавлена: 25.10.2025 в 18:55
Оставлено в

Почему ИИ-агенты теряются в море MCP-серверов

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Почему это важно

Как устроена среда

Агент, который сам ищет инструменты

Что получилось на практике

Немного цифр про поведение эксперимента

Зачем это нам

Почему ИИ-агенты теряются в море MCP-серверов

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Почему это важно

Как устроена среда

Агент, который сам ищет инструменты

Что получилось на практике

Немного цифр про поведение эксперимента

Зачем это нам