- BrainTools - https://www.braintools.ru -
ИИ-агенты — одна из относительно новых и обсуждаемых тем в технологической индустрии. Все больше компаний развивают решения, способные не только отвечать на вопросы и поддерживать беседу, но и взаимодействовать с операционной системой, приложениями и веб-сайтами: автономно решать комплексные задачи.
Мы в Beeline Cloud [1] подобрали несколько профильных материалов для тех, кто хочет познакомиться с темой, разобраться в устройстве современных ИИ-агентов и (возможно) разработать собственную систему подобного типа.
В прошлом году компания Anthropic — её основали бывшие специалисты OpenAI — опубликовала материал [2], посвященный принципам построения агентных систем. Статья начинается с основ и определений, но авторы быстро переходят к техническим моментам. В частности, они не рекомендуют использовать фреймворки вроде LangGraph или Rivet, поскольку те вводят избыточные уровни абстракции, затрудняющие отладку кода. Если же без фреймворка не обойтись, они рекомендуют подробно изучить его устройство — такой подход позволит избежать ошибок в будущем.
Фокус статьи — наиболее часто встречающиеся архитектуры агентных систем и workflow-шаблоны. Один из них называется «цепочка промптов» — в этом случае задача делится на последовательные шаги, а каждый вызов языковой модели обрабатывает результат предыдущего (такой подход чаще всего применяют для генерации текста с последующим переводом). Другой вариант получил название «оркестратор-воркеры», в котором главная модель разбивает задачу на части, передает их другим LLM на обработку, а затем собирает результаты и формирует окончательный ответ. Примеры кода для этих и других реализаций можно найти в специальном кукбуке, который авторы выложили на GitHub [3].
Материал Anthropic привлек внимание [4] на Hacker News — соответствующий тред [5] набрал больше ста комментариев и сотни плюсов. Статью назвали «самым полезным практическим руководством по созданию ИИ-агентов».
Дата-сайентист и автор подкаста про LLM и машинное обучение [6] Vanishing Gradients [7] Хьюго Боун-Андерсон даже опубликовал статью [8], в которой, опираясь на свой опыт [9] работы в Netflix и других американских корпорациях, привел примеры реального кода по каждому из описанных workflow-шаблонов. Среди них: подготовка писем для рассылки на основе профилей в соц.сетях и извлечение структурированных данных. Однако Хьюго Боун-Андерсон все же рекомендует сперва попробовать решить задачу с помощью классических детерминированных подходов — и только потом подключать ИИ-агентов.
Это — гайд [10] от OpenAI 2024 года. Он представляет собой практическое пособие для начинающих разработчиков и охватывает выбор моделей, настройку инструментов и инструкций, а также методы защиты данных с помощью PII-фильтров и систем безопасности для предотвращения утечек данных и некорректных ответов. Хотя примеры приведены для продуктов компании-автора, принципы носят универсальный характер.
В начале материала поднят важный вопрос: когда нужно разрабатывать ИИ-агентов [в частности, речь идет о процессах принятия решений и необходимости работать с большими объемами неструктурированных данных], а когда стоит обойтись детерминированными подходами. На Hacker News отметили [11], что руководство действительно может пригодиться новичкам, а также менеджерам, желающим быстро пройти краткий ликбез по работе с ИИ-агентами.
Инженер Декстер Хорти является разработчиком open source проекта HumanLayer [12], предоставляющего API и SDK, которые позволяют ИИ-агентам обращаться к людям за обратной связью. И он опубликовал на GitHub руководство под названием Twelve-Factor Agents [13], вдохновленное принципами Twelve-Factor App [14] для веб-разработки и SaaS.
Поводом для подготовки материала стал личный опыт автора. Он перепробовал существующие фреймворки для разработки агентов — от «коробочных» решений CrewAI и LangChain до LangGraph и GripTape — пообщался с десятками основателей ИИ-стартапов (включая выпускников Y Combinator). В итоге он пришел к выводу, что в продакшене фреймворки почти не используют. А большинство продуктов, которые называют себя ИИ-агентами, на деле — это детерминированный код, «приправленный» LLM-вызовами.
Декстер сформулировал 12 принципов, которые позволят разработать программное обеспечение на основе LLM, пригодное для использования в продакшене. Под каждый из них выделена отдельная страница в репозитории с кодом. Первый фактор [15] описывает распространенный подход к построению агентов. Второй [16] — идею, что не стоит перекладывать настройку промптов на фреймворки. Как правило, они представляют собой «черный ящик» — позволяют быстро стартовать, но ограничивают контроль. Такой подход удобен для прототипов, но затрудняет настройку модели и доработку под реальные задачи.
Третий принцип [17] посвящен тому, как организовать передачу контекста LLM (включая историю взаимодействий, документы и инструкции). Что касается остальных факторов, то они посвящены темам вроде управления состоянием системы [18], API [19], триггерам [20]. Документ ориентирован на инженеров, разрабатывающих приложения с LLM. И хотя автор пишет на TypeScript, предложенные концепции легко адаптировать под Python или другой язык.
«Агенты [21]» — документ, опубликованный в сентябре 2024 года сотрудниками Google. Авторы описывают архитектуру ИИ-агентов. Сначала они объясняют, что такое агент и чем он отличается от LLM, затем выделяют три ключевых компонента: модель, инструменты и слой оркестрации. LLM в этой архитектуре отвечает за принятие решений. Она может использовать разные фреймворки рассуждений: ReAct, Chain-of-Thought, Tree-of-Thoughts. Также агенту нужны внешние инструменты, которые позволяют системе получать и обрабатывать реальные данные: вызывать почтовые сервисы, искать информацию на картах, запускать функции и так далее. Оркестрация — это управляющий цикл, который решает, когда и что делать. Система не просто отвечает на запрос — она помнит историю разговора, выбирает инструменты и «накапливает» результат.
В документе также разбираются подходы к обучению моделей и пайплайн разработки агента с помощью LangChain и LangGraph на простом примере: ИИ-агент отвечает на вопрос, с кем играла футбольная команда на прошлой неделе и где находится стадион.
Академическая статья [22], подготовленная исследователями из Шанхайского университета Цзяотун (SJTU) и членами сообщества разработчиков протокола ANP [23] в 2025 году. Авторы подчеркивают проблему отсутствия единых стандартов для интеграции агентов. Из-за этого они не могут эффективно взаимодействовать друг с другом, что тормозит развитие экосистем коллективного интеллекта [24] для решения сложных задач.
Чтобы системно подойти к проблеме, исследователи предложили классификацию протоколов по двум категориям. Первая — по направлению взаимодействия: либо с внешними ресурсами (контекстно-ориентированные), либо между агентами (межагентные). Вторая — по охвату применения: универсальные или заточенные под конкретную доменную область. Такая классификация помогает ориентироваться в решениях и выбирать подходящие под задачу. Пример универсального контекстно-ориентированного протокола — это MCP от Anthropic. Пример доменно-специфичного — agents.json [25]. Протокол позволяет сайтам описывать доступ к своему API в машинно-читаемом формате.
Чтобы понять сильные и слабые стороны разных решений, авторы провели сравнение по семи метрикам: эффективность, масштабируемость, безопасность, надежность, расширяемость, удобство интеграции и совместимость.
В финале статьи авторы обсуждают будущее протоколов. В краткосрочной перспективе нужны решения для безопасного и согласованного взаимодействия агентов (им может стать предложенный авторами статьи Agent Mesh Protocol). В долгосрочной перспективе цель гораздо масштабнее: проектирование «интернета агентов» — единой инфраструктуры для обмена знаниями и коллективной работы.
Исследователь Тоби Орд опубликовал материал [26], в котором попытался объяснить, почему успешность выполнения ИИ-агентами многошаговых задач снижается экспоненциально с ростом длительности задачи.
В тексте автор приводит понятие «периода полураспада», под которым подразумевается критический размер задачи, при которой вероятность успешного её решения ИИ-агентом сокращается до 50%.
У людей же шанс успеха плотно связан с тем, что мы замечаем и исправляем свои ошибки [27] на разных этапах работы. Провалы ИИ-агентов возможно объяснить накоплением критических ошибок в цепочке подзадач: чем дольше задача, тем больше её компонентов требуется выполнить без ошибок. В случае критически важных задач (например, медицинских) даже современные ИИ-агенты пригодны только для коротких операций. Однако, как подчеркивает Орд, согласно результатам исследования организации METR — которая занимается разработкой и оценкой способности ИИ-систем выполнять сложные задачи — максимальная длительность задач, которые агенты могут решать с 50% успехом, удваивается каждые семь месяцев.
Beeline Cloud [1]— secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.
Что еще есть у нас в блоге:
Автор: beeline_cloud
Источник [31]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17836
URLs in this post:
[1] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=kak_sobrat_AI_agenta_otkritie_rukovodstva
[2] опубликовала материал: https://www.anthropic.com/engineering/building-effective-agents
[3] выложили на GitHub: https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents
[4] внимание: http://www.braintools.ru/article/7595
[5] тред: https://news.ycombinator.com/item?id=42470541
[6] обучение: http://www.braintools.ru/article/5125
[7] Vanishing Gradients: https://hugobowne.substack.com/
[8] опубликовал статью: https://decodingml.substack.com/p/stop-building-ai-agents
[9] опыт: http://www.braintools.ru/article/6952
[10] гайд: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
[11] отметили: https://news.ycombinator.com/item?id=44181700
[12] HumanLayer: https://github.com/humanlayer/humanlayer
[13] Twelve-Factor Agents: https://github.com/humanlayer/12-factor-agents
[14] Twelve-Factor App: https://12factor.net/
[15] Первый фактор: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-01-natural-language-to-tool-calls.md
[16] Второй: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-02-own-your-prompts.md
[17] Третий принцип: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-03-own-your-context-window.md
[18] управления состоянием системы: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-05-unify-execution-state.md
[19] API: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-06-launch-pause-resume.md
[20] триггерам: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-11-trigger-from-anywhere.md
[21] Агенты: https://www.kaggle.com/whitepaper-agents
[22] статья: https://arxiv.org/html/2504.16736v2
[23] ANP: https://github.com/agent-network-protocol/AgentNetworkProtocol
[24] интеллекта: http://www.braintools.ru/article/7605
[25] agents.json: https://github.com/wild-card-ai/agents-json
[26] опубликовал материал: https://www.tobyord.com/writing/half-life
[27] ошибки: http://www.braintools.ru/article/4192
[28] Против капчи: есть ли будущее у тестов вроде «найдите картинки с велосипедами»?: https://habr.com/ru/companies/beeline_cloud/articles/930772/
[29] Пеликаны, сарказм и игры — забавные LLM-бенчмарки: https://habr.com/ru/companies/beeline_cloud/articles/927284/
[30] Как нейросетям перестать бояться и полюбить «синтетику»: https://habr.com/ru/companies/beeline_cloud/articles/923126/
[31] Источник: https://habr.com/ru/companies/beeline_cloud/articles/932704/?utm_source=habrahabr&utm_medium=rss&utm_campaign=932704
Нажмите здесь для печати.