Почему AI-агентам нужна оркестрация

В настоящее время большинство организаций задаются вопросом, как эффективно интегрировать AI -агентов. Это боты, которые могут воспринимать запросы на естественном языке и выполнять действия.

Уверен, вы уже сталкивались с различными экспериментами по внедрению этих маленьких помощников в продукты. Результаты могут быть разными: от непонятных дополнений, которые скорее мешают, чем помогают, до гениальных, зачастую едва заметных улучшений, без которых потом трудно представить жизнь.

Удивительно наблюдать за современными инновациями, и, будучи тем, кто любит размышлять, я задумался о том, как мы можем построить систему, улучшающую реальные сквозные бизнес-процессы с помощью AI -агентов. Разумеется, для этого нужно достичь уровня, на котором мы сможем доверять агентам принимать важные решения за нас, а затем даже доверять им реализацию этих решений.

Так как же построить инфраструктуру, которая использует всё, что мы узнали о возможностях AI-агентов, не возлагая на них слишком много или слишком мало ответственности? И смогут ли конечные пользователи когда-либо доверять AI принятие критически важных решений?

Как будут развиваться AI-агенты

Большинство знакомых мне людей уже успешно интегрировали искусственный интеллект ^[1] в свою работу. Я довольно часто создаю proof of concept с Camunda и использую Gemini или ChatGPT для генерации тестовых данных или JSON-объектов — это очень удобно. Этот процесс можно развить в полноценного AI-агента, который не только генерирует данные, но и запускает экземпляр процесса с этими данными.

Такой подход сейчас распространён и среди организаций: AI-агенты представляют собой чёрный ящик, который получает пользовательский ввод и выдаёт (надеемся, полезный) ответ после выполнения небольшого действия.

Эти действия, конечно, всегда незначительны, и на то есть веская причина — легко развернуть AI-агента, если худшее, что он может сделать, это просто передать фиктивные данные в PoC. Сам AI не обязан предпринимать никаких действий или принимать решения, которые могут иметь реальные последствия. Если человек решит использовать судебный документ, сгенерированный ChatGPT… ну, это просто ошибка ^[2] пользователя.

На данный момент безопаснее держать AI-агентов подальше от принятия важных решений из-за их непредсказуемых и порой ошибочных результатов. Однако это фактически ограничивает их потенциал — потому что в идеале они должны работать в продуктивных системах, принимая решения и выполняя важные действия, которые мог бы делать человек.

Тем не менее, считать, что это продлится долго, нереалистично. Логичным развитием событий становится передача AI-агентам большей ответственности за выполняемые ими действия. Единственное, что сдерживает этот шаг — отсутствие доверия, поскольку их результаты до сих пор не являются предсказуемыми и воспроизводимыми. А в большинстве случаев именно это необходимо, чтобы принимать значимые решения.

Итак, что нам нужно сделать, чтобы сделать следующий шаг? Три вещи:

Децентрализовать
Оркестрировать
Контролировать

Оркестрация агентного AI

Как я уже упоминал, я ежедневно использую несколько AI-инструментов. Не потому, что хочу, а потому, что ни один AI-инструмент не может точно ответить на весь спектр моих запросов. Например, я говорил о том, что использую Gemini для создания JSON-объектов. Я разрабатывал небольшой процесс заказа кофе и мне нужен был объект, содержащий множество заказов.

{"orders" : [
  {
        "order_id": "20240726-001",
        "customer_name": "Alice Johnson",
        "order_date": "2024-07-26",
        "items": [
          {
            "name": "Latte",
            "size": "Grande",
            "quantity": 1,
            "price": 4.50
          },
          {
            "name": "Croissant",
            "quantity": 2,
            "price": 3.00
          }
        ],
        "payment_method": "Card"
  },
  {
        "order_id": "20240726-002",
        "customer_name": "Bob Williams",
        "order_date": "2024-07-26",
        "items": [
          {
            "name": "Espresso",
            "quantity": 1,
            "price": 3.00
          },
          {
            "name": "Muffin",
            "quantity": 1,
            "price": 2.50
          },
                {
            "name": "Iced Tea",
            "size": "Medium",
            "quantity": 1,
            "price": 3.50
          }
        ],
        "payment_method": "Cash"
  }
]}

Затем мне нужно было использовать Friendly Enough Expression Language (FEEL), чтобы разобрать этот объект и получить определённую информацию.

Я не использовал Gemini для этого, потому что он стабильно выдаёт мне некорректную информацию, когда мне нужно FEEL-выражение. Это происходит по нескольким причинам. FEEL — это новый и относительно нишевый язык выражений, поэтому для его обучения ^[3] доступно меньше данных. Кроме того, я использую именно Camunda’s FEEL implementation, которая включает дополнительные функции и небольшие особенности, которые необходимо учитывать.

Если я попрошу Gemini создать объект данных и затем использовать FEEL для получения первого заказа в массиве, я получу следующее:

Этот ответ — сплошная ложь. Поэтому вместо этого я обращаюсь к AI-агенту, который, как я знаю, был обучен специально и исключительно на технической документации Camunda. Ответ получается совсем другим — и, что важно, правильным.

Обычно я уверен, что AI-ассистенты и Copilot от Camunda дадут мне правильную информацию. Они не только генерируют выражение, но и выполняют его с заданными данными, чтобы убедиться, что оно работает. Хотя последствия здесь не такие критичные. Я хорошо знаком с FEEL, поэтому смогу обнаружить возможные ошибки до того, как использую выражение в продакшене.

В этой ситуации я фактически выступаю в роли оркестратора AI-агентов. Я принимаю решения о том, какого агента использовать, основываясь на двух главных факторах:

Доверие: Какому агенту я доверяю, чтобы он дал мне правильный ответ.
Последствия: Насколько серьезны последствия доверия этому результату?

Именно это мешает созданию по-настоящему эффективных сквозных агентных процессов. Я не знаю, могу ли я достаточно доверять конкретному AI-агенту, чтобы он не только принял решение, но и предпринял действие, которое может повлечь за собой реальные последствия. Вот почему люди спокойно просят AI сгенерировать краткое содержание текста, но не доверяют ему купить цветы для свадьбы.

Правда и последствия

Хватит теории, давайте поговорим о практических шагах для повышения доверия и контроля последствий, чтобы максимально эффективно использовать AI-агентов. Так как я люблю последовательный подход, разберём всё по порядку.

Доверие

Мы все сталкивались с ситуацией, когда AI выдаёт результат, и мы спрашиваем себя: «Почему?» Главная причина недоверия к AI-агентам в том, что в большинстве случаев невозможно получить чёткий ответ на вопрос, почему именно был получен тот или иной результат. В ситуациях, когда требуется аудит принятия решений или строгие ограничения, полагаться на «чёрный ящик» в виде AI-агента нельзя.

Однако есть хорошее решение — цепочка рассуждений (Chain of Thought). Этот подход позволяет AI явно показать, как он разбил проблему на части и пошагово изложил ход своих мыслей. Проблема в том, что кто-то должен проверять эту цепочку рассуждений, и вот здесь появляется оркестрация, которая может помочь.

Оркестрация позволяет связать сервисы так, чтобы запрос отправлялся сразу нескольким AI-агентам. Когда оба агента вернут свои ответы и цепочки рассуждений, третий агент может выступить в роли судьи, оценивая точность результата.

Продолжая мой пример, гораздо удобнее было бы отправить общий запрос: «Я использую Camunda и мне нужно FEEL-выражение для поиска первого элемента в массиве» и быть уверенным, что этот вопрос направится тому агенту, который лучше всего способен на него ответить. В данном случае это мог бы быть инстанс kapa.ai от Camunda.

Создать такую систему с помощью оркестратора на основе BPMN в Camunda было бы довольно просто.

В этом примере запрос отправляется в экземпляр процесса. Два различных AI-агента запускаются параллельно и определяют, кто из них лучше подходит для обработки данного запроса. Затем их результаты передаются третьему агенту, который анализирует цепочку рассуждений и принимает решение на основе ответов обоих. В данном случае очевидно, что FEEL — это область, в которой AI от Camunda справится лучше всего, и процесс будет направлен именно в эту сторону.

Так мы создаём поддерживаемую систему, где пользователю возвращаются надёжные ответы вместе с объяснением, почему был выбран конкретный агент и почему был дан именно этот ответ.

Последствия

Когда доверие установлено, можно задуматься о действиях, которые AI-агент может предпринять. Например, представим, что клиент Camunda создаёт тикет в поддержку, потому что у него тоже возникли проблемы с получением первого элемента в массиве. Сотрудник поддержки видит тикет и понимает: «Я уверен, что kapa.ai сможет ответить на этот вопрос. На самом деле, пусть AI-агент сам обработает этот запрос.»

В таком случае, нам остаётся только немного скорректировать модель:

В этой модели мы добавили возможность доступа к системе тикетов, чтобы находить соответствующий тикет и обновлять его надёжным ответом. Благодаря грамотному проектированию процесса, этот шаг будет выполняться только в тех случаях, когда уровень доверия к ответу очень высок. Если уровень доверия недостаточен, информация будет передана сотруднику поддержки, который сам решит, что делать дальше.

Будущее оркестрации AI

Предоставление независимых, узкоспециализированных агентов, а затем добавление прозрачных и контролируемых механизмов принятия решений вокруг того, как и почему они вызываются, поможет пользователям больше доверять AI-ответам и рекомендациям. Кроме того, это позволит архитекторам и разработчикам создавать системы, в которых AI-агенты могут принимать непосредственные действия, основанные на уровне их доверия.

Оркестратор, такой как Camunda, необходим для выполнения этого шага, поскольку он уже специализируется на интеграции систем и позволяет разработчикам тщательно контролировать, как и почему эти системы используются. Еще одним важным преимуществом является значительно более прозрачный процесс аудита. Объединение данных, полученных при прохождении различных путей процесса, с результатами размышлений каждого агента дает полное представление о том, как и почему были приняты определенные решения.

С этими принципами было бы гораздо проще убедить пользователей в том, что действия, выполняемые ИИ без надзора человека, заслуживают доверия и позволяют значительно сэкономить время и деньги, устраняя рутинную работу, такую как проверка и подтверждение перед следующими шагами.

Конечно, это применимо не ко всему, и я рад сказать, что, на мой взгляд, подача судебных документов все же должна оставаться за людьми. Однако со временем, я ожидаю, что мы сможем предоставить AI-агентам не только возможность выполнять свои предложения, но и самостоятельно выбирать конкретные действия.

В BPMN есть такой механизм, как ad-hoc подпроцесс, в котором небольшая часть процесса принятия решения может быть передана от человека AI-агенту. Это можно использовать для предоставления ИИ ограниченной свободы в выборе наилучшего действия.

В приведенном выше случае я добавил возможность для AI-агента запрашивать дополнительную информацию о запросе, если это необходимо. Он может делать это несколько раз, прежде чем в конечном итоге решить опубликовать ответ в тикете. Ключевой момент здесь в том, что если агент понимает, что ему потребуется больше информации, он может выполнить действие, которое поможет ему принять окончательное решение.

Будущее заключается в доверии агентам в пределах того, что, как мы считаем, они способны достичь. Если мы предоставим им доступ к действиям, которые помогают принимать более обоснованные решения и выполнять задачи, они смогут стать полноценной частью сквозных бизнес-процесс.

Подписывайтесь на Telegram канал BPM Developers ^[4].
Рассказываем про бизнес процессы: новости, гайды, полезная информация и юмор ^[5].

Автор: stas_makarov

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12747

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] ошибка: http://www.braintools.ru/article/4192

[3] обучения: http://www.braintools.ru/article/5125

[4] BPM Developers: https://t.me/bpm_developers

[5] юмор: http://www.braintools.ru/article/3517

[6] Источник: https://habr.com/ru/articles/887370/?utm_source=habrahabr&utm_medium=rss&utm_campaign=887370

Нажмите здесь для печати.