Как собрать ИИ-агента — открытые руководства для чтения

ИИ-агенты — одна из относительно новых и обсуждаемых тем в технологической индустрии. Все больше компаний развивают решения, способные не только отвечать на вопросы и поддерживать беседу, но и взаимодействовать с операционной системой, приложениями и веб-сайтами: автономно решать комплексные задачи.

Мы в Beeline Cloud ^[1] подобрали несколько профильных материалов для тех, кто хочет познакомиться с темой, разобраться в устройстве современных ИИ-агентов и (возможно) разработать собственную систему подобного типа.

Интро, фреймворки, схемы

В прошлом году компания Anthropic — её основали бывшие специалисты OpenAI — опубликовала материал ^[2], посвященный принципам построения агентных систем. Статья начинается с основ и определений, но авторы быстро переходят к техническим моментам. В частности, они не рекомендуют использовать фреймворки вроде LangGraph или Rivet, поскольку те вводят избыточные уровни абстракции, затрудняющие отладку кода. Если же без фреймворка не обойтись, они рекомендуют подробно изучить его устройство — такой подход позволит избежать ошибок в будущем.

Фокус статьи — наиболее часто встречающиеся архитектуры агентных систем и workflow-шаблоны. Один из них называется «цепочка промптов» — в этом случае задача делится на последовательные шаги, а каждый вызов языковой модели обрабатывает результат предыдущего (такой подход чаще всего применяют для генерации текста с последующим переводом). Другой вариант получил название «оркестратор-воркеры», в котором главная модель разбивает задачу на части, передает их другим LLM на обработку, а затем собирает результаты и формирует окончательный ответ. Примеры кода для этих и других реализаций можно найти в специальном кукбуке, который авторы выложили на GitHub ^[3].

Материал Anthropic привлек внимание ^[4] на Hacker News — соответствующий тред ^[5] набрал больше ста комментариев и сотни плюсов. Статью назвали «самым полезным практическим руководством по созданию ИИ-агентов».

Дата-сайентист и автор подкаста про LLM и машинное обучение ^[6] Vanishing Gradients ^[7] Хьюго Боун-Андерсон даже опубликовал статью ^[8], в которой, опираясь на свой опыт ^[9] работы в Netflix и других американских корпорациях, привел примеры реального кода по каждому из описанных workflow-шаблонов. Среди них: подготовка писем для рассылки на основе профилей в соц.сетях и извлечение структурированных данных. Однако Хьюго Боун-Андерсон все же рекомендует сперва попробовать решить задачу с помощью классических детерминированных подходов — и только потом подключать ИИ-агентов.

Практическое руководство по созданию агентов

Это — гайд ^[10] от OpenAI 2024 года. Он представляет собой практическое пособие для начинающих разработчиков и охватывает выбор моделей, настройку инструментов и инструкций, а также методы защиты данных с помощью PII-фильтров и систем безопасности для предотвращения утечек данных и некорректных ответов. Хотя примеры приведены для продуктов компании-автора, принципы носят универсальный характер.

В начале материала поднят важный вопрос: когда нужно разрабатывать ИИ-агентов [в частности, речь идет о процессах принятия решений и необходимости работать с большими объемами неструктурированных данных], а когда стоит обойтись детерминированными подходами. На Hacker News отметили ^[11], что руководство действительно может пригодиться новичкам, а также менеджерам, желающим быстро пройти краткий ликбез по работе с ИИ-агентами.

12 принципов для построения надежных ИИ-агентов

Инженер Декстер Хорти является разработчиком open source проекта HumanLayer ^[12], предоставляющего API и SDK, которые позволяют ИИ-агентам обращаться к людям за обратной связью. И он опубликовал на GitHub руководство под названием Twelve-Factor Agents ^[13], вдохновленное принципами Twelve-Factor App ^[14] для веб-разработки и SaaS.

Поводом для подготовки материала стал личный опыт автора. Он перепробовал существующие фреймворки для разработки агентов — от «коробочных» решений CrewAI и LangChain до LangGraph и GripTape — пообщался с десятками основателей ИИ-стартапов (включая выпускников Y Combinator). В итоге он пришел к выводу, что в продакшене фреймворки почти не используют. А большинство продуктов, которые называют себя ИИ-агентами, на деле — это детерминированный код, «приправленный» LLM-вызовами.

Декстер сформулировал 12 принципов, которые позволят разработать программное обеспечение на основе LLM, пригодное для использования в продакшене. Под каждый из них выделена отдельная страница в репозитории с кодом. Первый фактор ^[15] описывает распространенный подход к построению агентов. Второй ^[16] — идею, что не стоит перекладывать настройку промптов на фреймворки. Как правило, они представляют собой «черный ящик» — позволяют быстро стартовать, но ограничивают контроль. Такой подход удобен для прототипов, но затрудняет настройку модели и доработку под реальные задачи.

Третий принцип ^[17] посвящен тому, как организовать передачу контекста LLM (включая историю взаимодействий, документы и инструкции). Что касается остальных факторов, то они посвящены темам вроде управления состоянием системы ^[18], API ^[19], триггерам ^[20]. Документ ориентирован на инженеров, разрабатывающих приложения с LLM. И хотя автор пишет на TypeScript, предложенные концепции легко адаптировать под Python или другой язык.

Архитектура ИИ-агентов

«Агенты ^[21]» — документ, опубликованный в сентябре 2024 года сотрудниками Google. Авторы описывают архитектуру ИИ-агентов. Сначала они объясняют, что такое агент и чем он отличается от LLM, затем выделяют три ключевых компонента: модель, инструменты и слой оркестрации. LLM в этой архитектуре отвечает за принятие решений. Она может использовать разные фреймворки рассуждений: ReAct, Chain-of-Thought, Tree-of-Thoughts. Также агенту нужны внешние инструменты, которые позволяют системе получать и обрабатывать реальные данные: вызывать почтовые сервисы, искать информацию на картах, запускать функции и так далее. Оркестрация — это управляющий цикл, который решает, когда и что делать. Система не просто отвечает на запрос — она помнит историю разговора, выбирает инструменты и «накапливает» результат.

В документе также разбираются подходы к обучению моделей и пайплайн разработки агента с помощью LangChain и LangGraph на простом примере: ИИ-агент отвечает на вопрос, с кем играла футбольная команда на прошлой неделе и где находится стадион.

Стандарты взаимодействия ИИ-агентов

Академическая статья ^[22], подготовленная исследователями из Шанхайского университета Цзяотун (SJTU) и членами сообщества разработчиков протокола ANP ^[23] в 2025 году. Авторы подчеркивают проблему отсутствия единых стандартов для интеграции агентов. Из-за этого они не могут эффективно взаимодействовать друг с другом, что тормозит развитие экосистем коллективного интеллекта ^[24] для решения сложных задач.

Чтобы системно подойти к проблеме, исследователи предложили классификацию протоколов по двум категориям. Первая — по направлению взаимодействия: либо с внешними ресурсами (контекстно-ориентированные), либо между агентами (межагентные). Вторая — по охвату применения: универсальные или заточенные под конкретную доменную область. Такая классификация помогает ориентироваться в решениях и выбирать подходящие под задачу. Пример универсального контекстно-ориентированного протокола — это MCP от Anthropic. Пример доменно-специфичного — agents.json ^[25]. Протокол позволяет сайтам описывать доступ к своему API в машинно-читаемом формате.

Чтобы понять сильные и слабые стороны разных решений, авторы провели сравнение по семи метрикам: эффективность, масштабируемость, безопасность, надежность, расширяемость, удобство интеграции и совместимость.

В финале статьи авторы обсуждают будущее протоколов. В краткосрочной перспективе нужны решения для безопасного и согласованного взаимодействия агентов (им может стать предложенный авторами статьи Agent Mesh Protocol). В долгосрочной перспективе цель гораздо масштабнее: проектирование «интернета агентов» — единой инфраструктуры для обмена знаниями и коллективной работы.

Математика успеха ИИ-агентов

Исследователь Тоби Орд опубликовал материал ^[26], в котором попытался объяснить, почему успешность выполнения ИИ-агентами многошаговых задач снижается экспоненциально с ростом длительности задачи.

В тексте автор приводит понятие «периода полураспада», под которым подразумевается критический размер задачи, при которой вероятность успешного её решения ИИ-агентом сокращается до 50%.

У людей же шанс успеха плотно связан с тем, что мы замечаем и исправляем свои ошибки ^[27] на разных этапах работы. Провалы ИИ-агентов возможно объяснить накоплением критических ошибок в цепочке подзадач: чем дольше задача, тем больше её компонентов требуется выполнить без ошибок. В случае критически важных задач (например, медицинских) даже современные ИИ-агенты пригодны только для коротких операций. Однако, как подчеркивает Орд, согласно результатам исследования организации METR — которая занимается разработкой и оценкой способности ИИ-систем выполнять сложные задачи — максимальная длительность задач, которые агенты могут решать с 50% успехом, удваивается каждые семь месяцев.

Beeline Cloud ^[1]— secure cloud provider. Разрабатываем облачные решения, чтобы вы предоставляли клиентам лучшие сервисы.

Что еще есть у нас в блоге:

Автор: beeline_cloud

Источник ^[31]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17836

URLs in this post:

[1] Beeline Cloud: https://cloud.beeline.ru/?utm_source=owned_media&utm_medium=habr&utm_campaign=beeline_cloud&utm_term=kak_sobrat_AI_agenta_otkritie_rukovodstva

[2] опубликовала материал: https://www.anthropic.com/engineering/building-effective-agents

[3] выложили на GitHub: https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents

[4] внимание: http://www.braintools.ru/article/7595

[5] тред: https://news.ycombinator.com/item?id=42470541

[6] обучение: http://www.braintools.ru/article/5125

[7] Vanishing Gradients: https://hugobowne.substack.com/

[8] опубликовал статью: https://decodingml.substack.com/p/stop-building-ai-agents

[9] опыт: http://www.braintools.ru/article/6952

[10] гайд: https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

[11] отметили: https://news.ycombinator.com/item?id=44181700

[12] HumanLayer: https://github.com/humanlayer/humanlayer

[13] Twelve-Factor Agents: https://github.com/humanlayer/12-factor-agents

[14] Twelve-Factor App: https://12factor.net/

[15] Первый фактор: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-01-natural-language-to-tool-calls.md

[16] Второй: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-02-own-your-prompts.md

[17] Третий принцип: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-03-own-your-context-window.md

[18] управления состоянием системы: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-05-unify-execution-state.md

[19] API: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-06-launch-pause-resume.md

[20] триггерам: https://github.com/humanlayer/12-factor-agents/blob/main/content/factor-11-trigger-from-anywhere.md

[21] Агенты: https://www.kaggle.com/whitepaper-agents

[22] статья: https://arxiv.org/html/2504.16736v2

[23] ANP: https://github.com/agent-network-protocol/AgentNetworkProtocol

[24] интеллекта: http://www.braintools.ru/article/7605

[25] agents.json: https://github.com/wild-card-ai/agents-json

[26] опубликовал материал: https://www.tobyord.com/writing/half-life

[27] ошибки: http://www.braintools.ru/article/4192

[28] Против капчи: есть ли будущее у тестов вроде «найдите картинки с велосипедами»?: https://habr.com/ru/companies/beeline_cloud/articles/930772/

[29] Пеликаны, сарказм и игры — забавные LLM-бенчмарки: https://habr.com/ru/companies/beeline_cloud/articles/927284/

[30] Как нейросетям перестать бояться и полюбить «синтетику»: https://habr.com/ru/companies/beeline_cloud/articles/923126/

[31] Источник: https://habr.com/ru/companies/beeline_cloud/articles/932704/?utm_source=habrahabr&utm_medium=rss&utm_campaign=932704

Нажмите здесь для печати.