Говорят ли LLM на языке BPMN? Оценка их возможностей моделирования процессов на основе качественных метрик. bpm.. bpm. BPMN.. bpm. BPMN. Camunda.. bpm. BPMN. Camunda. llm.. bpm. BPMN. Camunda. llm. Анализ и проектирование систем.. bpm. BPMN. Camunda. llm. Анализ и проектирование систем. визуальное программирование.. bpm. BPMN. Camunda. llm. Анализ и проектирование систем. визуальное программирование. искусственный интеллект.

Panagiotis Drakopoulos, Panagiotis Malousoudis,
Nikolaos Nousias, George Tsakalidis, Kostas Vergidis

Аннотация

Большие языковые модели (LLM) становятся мощными инструментами для автоматизации моделирования бизнес-процессов, обещая упростить перевод текстовых описаний процессов в диаграммы Business Process Model and Notation (BPMN). Однако степень, в которой эти системы ИИ способны создавать высококачественные BPMN-модели, пока не подверглась тщательной оценке.

Данная статья представляет оценку пяти инструментов генерации BPMN на базе LLM, автоматически преобразующих текстовые описания процессов в BPMN-модели. Для оценки качества этих моделей ИИ мы вводим новую структурированную систему, которая присваивает баллы каждой BPMN-диаграмме по трем ключевым измерениям качества моделей процессов: ясность/читаемость, корректность и полнота, охватывающим как точность, так и понятность диаграммы.

Используя эту систему, мы провели эксперименты, в которых каждому инструменту поручалось моделировать один и тот же набор текстовых сценариев процессов, а полученные диаграммы систематически оценивались по критериям. Этот подход обеспечивает последовательную и воспроизводимую процедуру оценки и предлагает новую линзу для сравнения возможностей моделирования на базе LLM.

Наши выводы показывают, что хотя существующие инструменты на базе LLM способны создавать BPMN-диаграммы, отражающие основные элементы описания процесса, они часто демонстрируют ошибки — пропущенные шаги, непоследовательную логику или нарушения правил моделирования, что подчёркивает ограничения в достижении полностью корректных и полных моделей. Чёткость и читаемость генерируемых диаграмм также различаются, указывая на то, что эти модели ИИ всё ещё находятся на стадии созревания в генерации легко интерпретируемых потоков процессов.

Мы заключаем, что хотя LLM показывают перспективы в автоматизации моделирования BPMN, им необходимы значительные улучшения для последовательного создания синтаксически и семантически корректных моделей процессов.

1. Введение

Растущие возможности больших языковых моделей (LLM) значительно расширили спектр задач, которые можно решать с помощью искусственного интеллекта. Среди них особое внимание привлекла автоматическая генерация структурированного контента из естественного языка в областях, зависящих от формальных представлений, таких как управление бизнес-процессами (BPM).

Как дисциплина, занимающаяся проектированием, выполнением и оптимизацией организационных процессов, BPM в значительной степени полагается на моделирование бизнес-процессов (BP), и в частности на стандартизированные нотации, такие как Business Process Model and Notation (BPMN) — фактический промышленный стандарт для моделирования BP. Однако создание высококачественных BPMN-моделей остается трудоемкой и требующей экспертизы задачей. Традиционное моделирование требует не только технической грамотности в синтаксисе BPMN, но и способности переводить текстовые описания процессов в логически обоснованные и семантически точные диаграммы. Этот процесс перевода подвержен ошибкам, пропускам и несогласованностям, особенно при выполнении в сжатые сроки или пользователями без специальной подготовки.

В этом контексте LLM предлагают перспективную альтернативу. Их способность интерпретировать неструктурированный текст и генерировать структурированные выходы предполагает потенциал для создания моделей начального уровня, повышения доступности для нетехнических пользователей и снижения когнитивной и технической нагрузки при построении формальных моделей.

Несмотря на этот потенциал, существует заметный дефицит эмпирических данных о качестве BPMN-диаграмм, генерируемых LLM. Хотя предыдущие исследования изучали использование LLM для извлечения активностей или задач суммирования, применение этих моделей для генерации полных и корректных BPMN-диаграмм получило ограниченную систематическую оценку. В частности, ключевые измерения качества моделей не были достаточно исследованы в контексте инструментов моделирования на базе LLM.

Для устранения этого пробела данное исследование проводит структурированную оценку пяти инструментов генерации BPMN на базе LLM, способных преобразовывать текстовые описания процессов в BPMN-диаграммы. Используя стандартизированную систему оценки, основанную на установленных метриках качества из литературы BPM, инструменты тестируются на репрезентативном и формально обогащенном сценарии процесса. Качество полученных моделей анализируется по трем стилям входных промптов, что позволяет провести сравнительный анализ производительности инструментов при различных языковых условиях. Этот подход дает новые сведения о текущих возможностях и ограничениях систем моделирования на базе LLM.

Оценивая эти инструменты не только с точки зрения синтаксической корректности, но и семантической точности и визуальной понятности, исследование вносит вклад в более широкий дискурс об ИИ-ассистированном моделировании и предлагает рекомендации как для исследователей, так и для практиков, интересующихся интеграцией LLM в рабочие процессы BPM.

Остальная часть статьи структурирована следующим образом: Раздел 2 рассматривает основы моделирования BP и появление инструментов на базе LLM. Раздел 3 описывает методологию исследования и дизайн оценки. Раздел 4 представляет систему оценки качества, Раздел 5 детализирует экспериментальную установку. Раздел 6 содержит результаты оценки, а Раздел 7 обсуждает выводы и завершает исследование.

2. Моделирование бизнес-процессов и появление инструментов на базе LLM

В сегодняшней быстро меняющейся технологической и регуляторной среде организации сталкиваются с нарастающим давлением для оптимизации операций, сокращения неэффективности и быстрой адаптации к изменениям. Для решения этих задач BPM стал фундаментальной дисциплиной, позволяющей компаниям проектировать, мониторить, контролировать и оптимизировать выполнение бизнес-процессов (BP) структурированным образом. Он играет ключевую роль в согласовании операционной деятельности с целями организации, повышении производительности и обеспечении соответствия отраслевым и законодательным стандартам.

В основе BPM лежит моделирование бизнес-процессов (BP), ключевая практика, обеспечивающая графическое представление процессов таким образом, чтобы оно было всесторонним и доступным для заинтересованных сторон из разных функций. Моделирование BP поддерживает документирование, анализ и реинжиниринг процессов, предоставляя визуальную основу для выявления избыточностей, узких мест и возможностей автоматизации. Через симуляцию сценариев “что если”, организации могут прогнозировать результаты изменений до их внедрения, тем самым снижая риски и поддерживая обоснованное принятие решений. Реальные примеры, такие как использование моделирования BP Tesco и Wedgwood для оптимизации логистики и снижения затрат, иллюстрируют его практическую ценность. Более того, моделирование BP способствует сотрудничеству между бизнесом и IT, устанавливая общий язык для коммуникации о процессах. Стандарты такие как BPMN — поддерживаемые Object Management Group (OMG) — усиливают это сотрудничество, предоставляя синтаксис, который одновременно читаем машинами и интерпретируем людьми, облегчая переход от проектирования к выполнению.

Параллельно Большие языковые модели (LLM) появились как трансформационные инструменты в искусственном интеллекте, революционизируя обработку и использование естественного языка в различных дисциплинах. Эти модели — такие как ChatGPT, Gemini и Llama — способны понимать, генерировать и обрабатывать человеческий язык на продвинутом уровне, значительно снижая потребность в ручном вводе для задач, связанных с текстом. Обученные на огромных наборах данных и построенные с миллиардами параметров, LLM демонстрируют исключительную масштабируемость и способности к обобщению, позволяя им хорошо справляться со сложными задачами рассуждения, суммирования, перевода и даже генерации кода.

Их применимость охватывает разнообразные домены — от создания контента и обслуживания клиентов до более специализированных областей, таких как право, финансы, образование и здравоохранение. LLM также служат мощными личными и профессиональными ассистентами, способствуя значительной экономии времени и повышению производительности. По мере роста размеров и сложности моделей, возникают новые способности, такие как рассуждение на основе здравого смысла и символическая манипуляция, еще больше повышая их полезность в структурированных задачах, включая интерпретацию и перевод естественного языка в формальные нотации. Эти характеристики делают LLM особенно привлекательными для интеграции в бизнес-приложения, требующие семантического понимания и генерации структурированных выходов, такие как моделирование BP.

Сближение технологий BPM и LLM позволило разработать инструменты на базе ИИ, помогающие пользователям переводить текстовые описания процессов в формальные модели BPMN. Эти инструменты поддерживают моделирование на ранних стадиях, предоставляя черновые диаграммы, которые могут быть доработаны экспертами, эффективно снижая усилия по моделированию и повышая производительность. Важно, что они позволяют нетехническим пользователям участвовать в моделировании процессов, способствуя большей инклюзивности и сотрудничеству в задачах бизнес-анализа.

Данное исследование оценивает пять репрезентативных инструментов на базе LLM, предназначенных для моделирования BPMN:

BA-Copilot — профессиональный ассистент, генерирующий редактируемые диаграммы BPMN с использованием инструментария BPMN.io. Генерирует модели процессов непосредственно в формате .bpmn, фокусируясь на структурированных выходах и практической удобности использования.
BPMN-Chatbot — академический прототип из Университета Клагенфурта, исследующий потенциал интерфейсов естественного языка в моделировании процессов, используя возможности LLM.
Camunda BPMN Copilot — решение с открытым исходным кодом, интегрированное в Camunda Modeler, позволяющее генерировать модели BPMN на основе промптов в широко используемой среде моделирования.
Nala2BPMN, разработанный Bonitasoft, автоматизирует преобразование входов естественного языка в диаграммы BPMN, фокусируясь на ускорении фазы проектирования.
ProMoAI — легковесный исследовательский прототип, построенный на Streamlit, предназначенный для демонстрации генерации BPMN из промптов с минимальной настройкой пользователя.

Эти инструменты представляют собой смесь коммерческих, с открытым исходным кодом и академических разработок, обеспечивая охват различных потребностей пользователей и технических контекстов. В отличие от предыдущих работ, которые в основном оценивали универсальные LLM (например, ChatGPT) на задачах моделирования процессов (например, извлечение активностей, генерация моделей процессов), данное исследование фокусируется на инструментах, специально адаптированных для моделирования BPMN, оценивая их производительность в генерации сложных и семантически насыщенных диаграмм.

3. Методология исследования

Данный раздел описывает методологическую основу, которой следовало данное исследование для оценки производительности и удобства использования инструментов на базе LLM в моделировании бизнес-процессов. Была реализована структурированная пятиэтапная процедура, обеспечивающая соответствие реальным сценариям применения (Рисунок 1).

Рисунок 1. Процесс оценки решений для моделирования BPMN на базе ИИ

Этап 1: Выбор качественных метрик. Оценка началась с определения релевантных измерений качества для моделирования бизнес-процессов. После тщательного анализа установленных критериев в литературе были выбраны три ключевые метрики: Четкость (Clarity), Корректность (Correctness) и Полнота (Completeness). Эти измерения отражают существенные характеристики хорошо сформированных моделей процессов и последовательно упоминаются в различных фреймворках оценки качества BPM.

Этап 2: Определение системы оценок. Для обеспечения стандартизированной оценки была разработана система баллов с пятью уровнями, которая представлена в следующем разделе. Каждый выход модели оценивался по трем выбранным качественным метрикам с использованием этой фиксированной шкалы, что позволило обеспечить сопоставимость и качественное дифференцирование.

Этап 3: Выбор инструментов на базе LLM. Для анализа был выбран репрезентативный набор из пяти инструментов, отражающий сочетание профессиональных, с открытым исходным кодом и академических решений. В выборку вошли: BA-Copilot — профессиональный ассистент, ориентированный на структурированные выходы и практическую удобность; BPMN-Chatbot — академический прототип, акцентирующий взаимодействие на естественном языке; Camunda BPMN Copilot — инструмент с открытым кодом, интегрированный в экосистему Camunda; Nala2BPMN, разработанный Bonitasoft, фокусирующийся на автоматизации ранних стадий; ProMoAI — легковесный прототип для моделирования на основе промптов. При отборе приоритет отдавался инструментам, специально разработанным или дообученным для генерации BPMN, а не универсальным LLM.

Этап 4: Выбор процесса для оценки. В качестве стандартизированного сценария процесса был выбран процесс из официального Греческого национального реестра административных государственных услуг (MITOS). Выбранный процесс под названием “Продление водительских прав (все категории)”, реестровый номер 664541, используется Министерством инфраструктуры и транспорта Греции (Управление транспорта и связи) и применяется для держателей греческих/европейских лицензий. Этот процесс является одним из наиболее востребованных государственных услуг в Греции, что отражает высокий уровень вовлеченности граждан. Он хорошо документирован, доступен в цифровом формате и является приоритетом правительства из-за влияния на общественную безопасность и мобильность. При тестировании этот реальный референсный процесс позволил обеспечить последовательное сравнение выходов, генерируемых каждым инструментом.

Этап 5: Проведение экспериментов. Каждый инструмент на базе LLM получил задание на основе стандартизированного сценария процесса. Сгенерированные модели BPMN затем оценивались согласно заранее определенной системе баллов и качественным метрикам. Такой подход обеспечивает справедливое сравнение и поддерживает структурированный анализ сильных и слабых сторон каждого инструмента.

В совокупности эта методология обеспечивает единообразную основу для оценки выбранных инструментов, подготавливая почву для применения определенных качественных критериев в следующем разделе.

Фреймворк оценки

Оценка BPMN-моделей, сгенерированных ИИ, в данном исследовании основана на хорошо зарекомендовавших себя внешних метриках качества. Эти критерии заимствованы из признанной академической литературы и практических руководств по моделированию, в частности из качественных фреймворков, таких как ISO 9126 и систематического обзора Sánchez-González et al. Они служат для оценки функциональных, структурных и коммуникативных характеристик BPMN-диаграмм и критически важны для определения соответствия выходов ИИ реальным стандартам моделирования.

Среди наиболее широко признанных внешних измерений качества в литературе выделяются: Модифицируемость — оценивает легкость редактирования и формат, в котором создается модель; Четкость/Читаемость — касается визуальной структуры и маркировки модели; Адаптируемость — отражает легкость миграции модели между нотациями или повторного использования в разных контекстах; Поддерживаемость — характеризует усилия, необходимые для обновления или расширения модели; Корректность — обеспечивает синтаксическую и семантическую валидность процесса; Согласованность — относится к единообразию логики, данных и терминологии по всей модели; Полнота — проверяет включение всех указанных элементов; Информативность — оценивает содержательность меток и аннотаций; Соответствие токену — определяет возможность выполнения модели через симуляцию.

4.1. Выбор качественных метрик

Из этого более широкого спектра были выбраны три качественные метрики для целенаправленной оценки: Корректность, Полнота и Четкость. Выбор этих метрик определялся как их значимостью в литературе по качеству BPMN, так и их соответствием потребностям оценки инструментов моделирования на базе LLM.

Кроме того, они были выбраны на основе как их распространенности в предыдущих академических фреймворках, так и их критической роли в оценке моделей, генерируемых инструментами на базе LLM. Например, выбор метрик в нашем исследовании поддерживается подходом, изложенным в. Их фреймворк моделирования процессов на базе LLM акцентирует гарантии корректности (soundness guarantees), что относится к корректности, итеративное улучшение через обратную связь пользователей для повышения полноты, и иерархические, интерпретируемые представления для обеспечения четкости. Хотя их работа не определяет эти качественные метрики явно, методологический дизайн тесно соответствует предложенному фреймворку оценки, тем самым подтверждая актуальность выбранных нами качественных метрик.

Четкость относится к визуальной и структурной согласованности диаграммы. Хорошо структурированная, четко промаркированная модель улучшает понимание заинтересованных сторон и коммуникацию. Эта метрика поддерживается в 54% рассмотренных предложений и соответствует атрибутам удобства использования стандарта ISO 9126.

Корректность является ключевым критерием для оценки синтаксической и семантической валидности и упоминается в 31% исследованных фреймворков в. Она обеспечивает ожидаемое поведение модели при симуляции и соблюдение правил спецификации BPMN. Для генеративных моделей корректность критически важна для определения, создает ли инструмент валидную исполняемую логику или лишь синтаксически правдоподобные выходы.

Полнота является фундаментальной для охвата всех аспектов моделируемого процесса, описанных в входном сценарии. Пропуски, особенно задач, событий или путей принятия решений, могут привести к критическим недопониманиям и существенно исказить предполагаемую логику процесса. Она упоминается в 69% фреймворков, исследованных в литературе.

Вместе эти измерения обеспечивают сбалансированную оценку как структурной целостности, так и практической удобности использования в моделировании процессов.

4.2. Система оценки 3C

В данном подразделе представлена Система оценки 3C для оценки внешнего качества BPMN-моделей на основе трех выбранных измерений: Четкость, Корректность и Полнота. Каждое измерение оценивается независимо с использованием пяти качественных критериев, выведенных из лучших практик BPMN и основанных на. Для каждого критерия применяется пятибалльная ординальная шкала для выставления оценок, аналогичная шкалам в предыдущих исследованиях качества BPMN (Таблица 1). Оценки по каждому критерию затем взвешиваются в зависимости от значимости (высокая, средняя или низкая) и формируют итоговый балл.

Таблица 1. Оценка по порядковой шкале

Оценка	Уровень качества	Интерпретация
5	Очень высокий	Проблемы отсутствуют. Модель полная, корректная и четко структурированная.
4	Высокий	Присутствует только одна незначительная проблема (низкой или средней значимости). Общее качество в целом приемлемо.
3	Средний	Одна серьезная проблема или комбинация проблем средней и низкой значимости. Модель пригодна к использованию, но требует доработки.
2	Низкий	Несколько проблем, включая как минимум одну серьезную. Общее качество существенно ухудшено.
1	Очень низкий	Присутствует множество серьезных проблем, включая две или более высокой значимости. Модель не пригодна для использования и ненадежна.

Критерии корректности

Отсутствие синтаксических/поведенческих нарушений (Высокая): модель не должна содержать взаимоблокировок, зависаний или бесконечных циклов.
Отсутствие структурных ошибок (Высокая): все элементы должны быть соединены и входить в валидный поток; не должно быть изолированных узлов.
Отсутствие семантических нарушений (Средняя): модель должна точно отражать описанную логику процесса. Последовательность и тип элементов в BPMN-модели должны соответствовать предполагаемому поведению процесса.
Отсутствие избыточных потоков/элементов (Средняя): избегать ненужных компонентов, не выполняющих функциональной роли.
Все шлюзы ветвления должны сопровождаться соответствующими объединениями (Низкая): должна поддерживаться логическая согласованность потока управления.

Критерии полноты

Все элементы потока управления из промпта смоделированы (Высокая)
Процесс включает начальные и конечные события (Высокая)
Все исходы решений смоделированы (Средняя): каждая точка принятия решения должна иметь все ожидаемые ветви (например, Да/Нет).
Обработка исключений смоделирована там, где это релевантно (Средняя)
Все шлюзы ветвления должны сопровождаться соответствующими объединениями (Низкая): должна поддерживаться логическая согласованность потока управления.

Критерии четкости

Отсутствие вводящих в заблуждение или неверных меток (Высокая): метки активностей, событий и шлюзов должны четко и точно отражать их функцию.
Отсутствие немаркированных элементов (Высокая): все элементы, особенно задачи, шлюзы и события, должны быть названы для уточнения их роли в процессе.
Отсутствие проблем с компоновкой диаграммы (Средняя): модели должны использовать единообразные отступы и избегать зигзагообразных потоков для обеспечения визуальной читаемости.
Отсутствие пересекающихся потоков (Средняя): последовательные потоки не должны пересекаться без необходимости.
Все исходящие дуги (X)OR-разделителей промаркированы (Низкая): пути от шлюзов принятия решений должны быть промаркированы условиями для указания логики.

5. Дизайн экспериментов

На основе ранее определенного фреймворка оценки был разработан структурированный экспериментальный дизайн для систематической оценки производительности выбранных инструментов на базе LLM в моделировании бизнес-процессов. В частности, один и тот же сценарий процесса был представлен инструментам в трех различных форматах входных данных (т.е. промптов). Основные цели экспериментов заключались в следующем: (i) оценить способность инструментов представлять продвинутую логику процессов с использованием сложных элементов BPMN (например, шлюзов на основе событий, непрерывающих прикрепленных событий таймера), и (ii) оценить их способность интерпретировать и моделировать одну и ту же логику процесса при различных стилях входных данных, включая пошаговые инструкции (промпт 1), повествовательный абзац (промпт 2) и абзац с дополнительной нерелевантной информацией (т.е. шумом) (промпт 3). Все эксперименты доступны онлайн для обеспечения воспроизводимости и дальнейших исследований.

5.1. Выбор и расширение сценария процесса

Административный процесс “Продление водительских прав” был выбран из официального Германского национального реестра административных государственных услуг (MITOS). Этот процесс был отобран по нескольким причинам: он хорошо документирован, широко используется населением и знаком большинству граждан, что делает его доступным и практически значимым кейсом для оценки эффективности инструментов на базе LLM в реальных условиях.

Однако, поскольку документированные шаги процесса в основном последовательны и не содержат исключительных путей или явных механизмов обработки ошибок, авторы внесли целенаправленные расширения в исходный сценарий, добавив более сложную логику процессов. Это позволяет устранить пробел в предыдущих исследованиях, которые преимущественно изучали производительность LLM при моделировании базовых элементов BPMN (например, начальных и конечных событий, активностей, эксклюзивных и параллельных шлюзов), игнорируя более сложные конструкции.

Расширяя сценарий (см. Experiments/Process Scenario), исследование стремится определить, могут ли выбранные инструменты точно представлять продвинутую логику с использованием соответствующих артефактов BPMN — тем самым напрямую решая цель (i) экспериментального дизайна. Для этой цели в исходный поток процесса были введены следующие улучшения:

Условное ожидание на основе событий: добавлен механизм условного ожидания, описанный как: “Процесс ожидает до тех пор, пока не произойдет одно из двух событий: либо заявитель подаст недостающие документы, либо пройдет 15 дней без подачи”.

Периодические автоматические напоминания: внедрен механизм повторяющихся неперехватывающих напоминаний, сформулированный как: “Пока лицензия не выдана, автоматическое напоминание отправляется ответственному должностному лицу каждые 5 рабочих дней”.

5.2. Вариации промптов

Учитывая, что реальные описания процессов в значительной степени различаются по структуре, четкости и наличию нерелевантной информации, авторы создали три различных варианта входных данных для выбранного сценария процесса (как определено в 5.1). Эти вариации были разработаны для оценки способности инструментов интерпретировать и моделировать бизнес-процессы из различных типов текстовых входов, тем самым решая цель (ii) экспериментального дизайна:

Промпт 1 (Пошаговые инструкции): четко пронумерованный список, явно описывающий каждый шаг процесса, предоставляющий высоко структурированный формат входных данных.

Промпт 2 (Параграфное описание): неструктурированный повествовательный абзац, описывающий общий поток процесса без явной нумерации, требующий от инструментов неявного вывода и реконструкции базовой структуры.

Промпт 3 (Шумный параграф): аналогичный Промпту 2, но дополненный дополнительной нерелевантной контекстной информацией (т.е. шумом). Этот вариант специально оценивает способность инструментов отфильтровывать несущественное содержимое и точно представлять в сгенерированной BPMN-модели только релевантную логику процесса.

Все три промпта доступны онлайн для изучения их структуры и вариаций.

5.3. Генерация моделей

После определения сценария процесса и разработки трех различных вариаций промптов следующая фаза включала генерацию BPMN-моделей с использованием пяти выбранных инструментов на базе LLM. Каждый инструмент тестировался со всеми тремя промптами, и для учета внутренней изменчивости выходов LLM каждый промпт выполнялся по три раза на инструмент. Эта процедура привела к созданию 9 моделей на инструмент (т.е. 3 промпта, 3 запуска на промпт), что дало в общей сложности 45 моделей по всем инструментам (т.е. 5 инструментов, 9 моделей на инструмент).

Для оценки наилучшей потенциальной производительности каждого инструмента авторы применили стратегию “лучший из трех”. Для каждого инструмента и промпта из трех сгенерированных моделей выбиралась наиболее точная или репрезентативная модель (т.е. та, которая лучше всего отражала предполагаемую логику процесса). Например, в случае промпта 2 для Инструмента X, если первые два запуска создали диаграммы с неполными потоками управления или семантическими ошибками, а третий запуск дал связную и полную BPMN-модель, то третья модель выбиралась для дальнейшей оценки.

Этот подход был выбран для оценки наилучшей потенциальной производительности каждого инструмента, а не усреднения результатов, которые могли быть испорчены субоптимальными генерациями. Кроме того, такой подход соответствует практическому использованию подобных инструментов, когда пользователи могут итеративно запрашивать инструмент и выбирать лучший результат из нескольких попыток. Однако, хотя эта стратегия предотвращает чрезмерное наказание инструментов за случайные неудачные выходы, она вводит потенциальный bias, акцентируя внимание на лучшем случае вместо средней надежности. Это методологическое ограничение признается и обсуждается далее в Разделе 7.

В результате этой стратегии выбора итоговый набор для оценки включал 15 BPMN-моделей (т.е. 3 на инструмент, каждая представляющая лучший выход для каждого промпта). Эти модели затем оценивались с использованием структурированной оценочной таблицы, основанной на заранее определенном фреймворке качества 3C (Четкость, Корректность и Полнота).

5.4. Процедура оценки

Заключительная фаза экспериментального дизайна сосредоточилась на структурированной оценке 15 выбранных BPMN-моделей. Для обеспечения последовательности и строгости использовалась стандартизированная оценочная таблица (см. Experiments/Evaluation/Evaluation Scoring Sheet Template), включающая взвешенный чек-лист, соответствующий заранее определенным критериям качества (см. подраздел 4.2). Каждый автор независимо оценивал BPMN-диаграммы и документировал свои оценки, используя собственную копию оценочной таблицы.

Шаблон оценочной таблицы, показанный на Рисунке 2, организован следующим образом:

Рисунок 2. Шаблон структурированной оценочной таблицы

Организация критериев: таблица разделена на три выбранных измерения качества — Четкость, Корректность и Полнота. Под каждым измерением перечислены конкретные качественные метрики (например, «Отсутствие вводящих в заблуждение или неверных меток», «Отсутствие нарушений структурной корректности», «Отсутствие пропущенных начальных/конечных событий»). Каждая метрика связана с уровнем значимости (Высокая, Средняя или Низкая) и соответствующим весом (3, 2 или 1 соответственно).
Записи оценки: для каждого инструмента на базе LLM (например, BA Copilot, BPMN Chatbot, Nala2BPMN, Camunda BPMN Copilot, ProMoAI) оценочная таблица фиксирует бинарный результат (Истина/Ложь) для каждого критерия качества под каждым промптом (Промпт 1, Промпт 2, Промпт 3). Запись «Истина» означает, что модель удовлетворяет критерию, а «Ложь» — наличие проблемы. Например, если модель содержит четко промаркированные активности без двусмысленности, критерий «Отсутствие вводящих в заблуждение или неверных меток» отмечается как Истина, положительно влияя на оценку по Четкости.
Визуальные доказательства: под каждым промптом указывается URL соответствующей BPMN-модели, обеспечивая возможность отследить конкретную версию модели, подвергнутую оценке.
Расчет оценок: для каждого промпта вычисляется сырой балл путем суммирования весов всех критериев, отмеченных как Истина. Этот балл затем нормализуется путем деления на максимальный возможный балл в каждом измерении качества, что дает Нормализованную оценку от 0 (самая низкая) до 5 (самая высокая).

После того как все пять авторов независимо заполнили свои оценочные таблицы, индивидуальные оценки были коллективно рассмотрены, а все расхождения обсуждены для достижения консенсуса. Результатом этого совместного процесса стала консолидированная оценочная таблица, которая служит основой для результатов, представленных в следующем разделе.

6. Результаты

Данный раздел представляет результаты оценки, структурированные по четырем аналитическим перспективам: (i) иллюстративный пример, демонстрирующий потенциал инструментов моделирования на базе LLM, (ii) описательная статистика, сравнивающая среднюю производительность инструментов, (iii) анализ корреляции между измерениями качества и (iv) детализированный обзор отдельных критериев качества, выделяющий наиболее стабильно выполняемые и наиболее проблемные для всех инструментов.

6.1. Выбор процесса для оценки

Для иллюстрации значительного потенциала инструментов на базе LLM авторы сначала представляют репрезентативный выход, сгенерированный Camunda BPMN Copilot в ответ на промпт 3. Полученная BPMN-модель (Рисунок 3) достигла высоких оценок по всем трем измерениям качества: Четкость (5.00), Корректность (4.55) и Полнота (4.55).

Рисунок 3. BPMN-модель, сгенерированная Camunda BPMN Copilot с использованием Промпта 3 (доступна онлайн в более высоком разрешении)

Диаграмма демонстрирует способность инструмента точно интерпретировать сложную семантику процесса и переводить ее в синтаксически насыщенное и визуально согласованное представление BPMN. В частности, она включает продвинутые конструкции BPMN, такие как шлюз на основе событий для управления условным ветвлением и непрерывающее прикрепленное событие таймера для моделирования периодических автоматических напоминаний. Корректное использование этих элементов отражает глубокое понимание логики процесса и формальной нотации, демонстрируя уровень мастерства моделирования, близкий к человеческому эксперту.

Хотя модель обладает высоким общим качеством, она содержит незначительное синтаксическое нарушение: путь, инициированный неперехватывающим событием таймера, не имеет выделенного конечного события, что формально делает исключительный поток неполным. Это ограничение подчеркивает потенциальную необходимость постгенерационной валидации, что подробнее обсуждается в Разделе 7.

6.2. Описательная статистика

Хотя предыдущий пример демонстрирует высокий потенциал инструментов на базе LLM для генерации качественных BPMN-моделей, такие результаты не являются последовательными для всех инструментов. На практике качество генерируемых моделей значительно варьируется в зависимости от используемого инструмента.

Таблица 2 представляет описательную статистику, суммирующую оценочные баллы для каждого инструмента (BA-Copilot=A, BPMN Chatbot=B, Camunda BPMN Copilot=C, Nala2BPMN=D, ProMoAI=E) по трем измерениям качества и степени вариации между ними. Для каждого измерения таблица включает средние баллы по инструментам (т.е. рассчитанные как среднее арифметическое баллов от промптов 1, 2 и 3), а также общий средний показатель и стандартное отклонение по всем инструментам.

Таблица 2. Описательная статистика по инструментам

Метрика	A	B	C	D	E	Среднее	Ст. откл.
Четкость	2.42	3.64	4.09	3.18	0.91	2.85	1.12
Корректность	1.52	2.73	3.33	1.97	1.36	2.18	0.75
Полнота	3.33	0.61	4.55	4.55	0.45	2.70	1.82

Где: A=BA-Copilot, B=BPMN Chatbot, C=Camunda BPMN Copilot, D=Nala2BPMN, E=ProMoAI

Результаты выявляют существенную вариацию в производительности инструментов. Camunda BPMN Copilot достиг наивысших показателей по всем трем измерениям, особенно в Четкости (4.09) и Полноте (4.55). В противоположность этому, ProMoAI показал наихудшие результаты в целом, особенно в Четкости (0.91) и Полноте (0.45), что указывает на ограниченную эффективность в создании понятных или полных BPMN-диаграмм.

Кроме того, вариации могут наблюдаться внутри одного инструмента по разным измерениям. Например, Nala2BPMN достиг высокого балла по Полноте (4.55), но показал ниже среднего по Корректности (1.97), что подчеркивает, что инструмент может преуспевать в одном измерении, одновременно испытывая трудности в другом.

Рисунок 4 предоставляет визуальное обобщение обсуждаемых вариаций производительности, подчеркивая как различия между инструментами, так и между оценочными измерениями, а также представляя относительные сильные и слабые стороны каждого инструмента.

Рисунок 4. Средний оценочный показатель по инструментам.

При рассмотрении всех инструментов Четкость оказалась измерением с наивысшим средним баллом (среднее = 2.85), за ней плотно следует Полнота (2.70). В противоположность этому, Корректность имела наименьший средний балл (среднее = 2.18), что указывает на то, что синтаксическая и семантическая точность остается общей проблемой среди текущих инструментов. Это ограничение может проистекать из неспособности некоторых инструментов включать продвинутые конструкции BPMN (например, шлюзы на основе событий, непрерывающее прикрепленное событие таймера) для моделирования заданной логики процесса. В результате эти инструменты часто пытаются аппроксимировать предполагаемое поведение процесса с использованием более знакомых или ограниченных элементов BPMN, что может приводить к синтаксическим или семантическим нарушениям.

С точки зрения изменчивости, Полнота показала наивысшее стандартное отклонение (1.82), подчеркивая значительные различия в том, насколько хорошо инструменты охватывают все аспекты описанного процесса. Эта изменчивость предполагает, что некоторые инструменты могут упускать из виду или упрощать ключевые элементы управляющего потока. В противоположность этому, Корректность продемонстрировала наименьшее стандартное отклонение (0.75), указывая на относительно последовательное синтаксическое поведение среди инструментов, хотя и на умеренном уровне точности в целом.

6.3. Корреляция между измерениями качества

Хотя предыдущие результаты показали, что один инструмент может хорошо работать в одном измерении качества, но плохо в другом, степень взаимосвязи этих измерений остается неясной. Для лучшего понимания таких расхождений были рассчитаны коэффициенты корреляции Пирсона для оценки степени связи между Четкостью, Корректностью и Полнотой. Этот анализ дает представление о том, сопровождается ли высокая производительность в одной области, например Четкости, обычно высокой (или низкой) производительностью в других, выявляя потенциальные закономерности в поведении инструментов.

Таблица 3 представляет коэффициенты корреляции Пирсона для каждой пары измерений качества. Результаты показывают сильную положительную корреляцию между Четкостью и Корректностью (r = 0.882), что предполагает, что инструменты, создающие визуально четкие диаграммы, также с большей вероятностью генерируют синтаксически и семантически точные модели, и наоборот. Эта связь, вероятно, отражает фундаментальную связь между структурной читаемостью и точным представлением логики, поскольку оба аспекта зависят от правильного использования синтаксиса BPMN. Умеренная корреляция между Четкостью и Полнотой (r = 0.525) указывает на некоторую степень согласованности между визуальной четкостью и включением необходимых элементов процесса. Хотя четкость может улучшать общее понимание, она не гарантирует наличие всех требуемых компонентов. Инструменты могут создавать читаемые диаграммы, которые при этом остаются неполными. В противоположность этому, слабая корреляция между Корректностью и Полнотой (r = 0.297) предполагает, что охват большинства элементов процесса не обязательно подразумевает структурно корректное или логически связное представление. Инструмент может генерировать корректные представления процесса без моделирования полного потока или включать все элементы, но располагать их таким образом, что это нарушает синтаксис или семантику BPMN.

Таблица 3. Коэффициенты корреляции Пирсона между измерениями качества

Метрика	Четкость	Корректность	Полнота
Четкость	1.000	0.882	0.525
Корректность	0.882	1.000	0.297
Полнота	0.525	0.297	1.000

6.4. Производительность по отдельным критериям качества

Хотя предыдущий анализ изучал взаимосвязи между тремя измерениями качества, он не оценивал, как инструменты работают применительно к отдельным критериям качества, составляющим эти измерения. В системе оценки 3C каждое измерение состоит из нескольких конкретных критериев (например, «отсутствие неназначенных элементов», «отсутствие структурных ошибок» и т.д.), и оценка производительности на этом уровне может дать более точное представление о сильных и слабых сторонах инструментов моделирования на базе LLM. Такой уровень анализа дополнительно может предложить практические рекомендации для будущих улучшений, особенно в устранении повторяющихся пропусков или ошибок моделирования.

Рисунок 5 представляет процент прохождения для каждого критерия по всем инструментам и промптам, показывая долю оцененных моделей, в которых критерий был успешно выполнен. Критерии окрашены по измерениям и отсортированы по среднему проценту прохождения, предоставляя детализированный обзор того, какие требования качества были наиболее последовательно выполнены, а какие представляли большие трудности. Например, критерий «Отсутствие пересекающихся потоков» достиг процента прохождения 80%, что означает его выполнение в 12 из 15 оцененных моделей (т.е. 5 инструментов, 3 промпта на инструмент, 1 лучший запуск на промпт).

Рисунок 5. Процент прохождения критериев по всем инструментам и промптам.

Результаты выявляют существенную вариацию процентов прохождения по 15 критериям, подчеркивая как сильные стороны, так и постоянные проблемы в современных инструментах моделирования процессов на базе LLM. Наивысшие проценты прохождения были зафиксированы для критериев Четкости и Полноты «Отсутствие пересекающихся потоков» (80%) и «Отсутствие пропущенных элементов управляющего потока» (73.33%) соответственно. Эти результаты указывают на то, что большинство инструментов в целом способны идентифицировать необходимые компоненты процесса и представлять их в визуально чистом и читаемом формате.

В противоположность этому, несколько критериев выявляют критические ограничения. В частности, ни один из инструментов не удовлетворил критерий «Отсутствие пропущенных дополнительных элементов» (0% прохождения), что указывает на постоянную неспособность представлять поддерживающие аспекты процесса, такие как ресурсная или информационная перспектива. Например, даже если промпты указывали акторов сценария процесса (например, сотрудник Службы транспорта и связи (TCS)), инструменты либо опускали конструкции BPMN вроде пулов и дорожек, либо использовали их неправильно. Кроме того, семантическая корректность выявилась как еще одна значительная проблема. Критерий «Отсутствие семантических нарушений» имел процент прохождения 20%, что означает наличие логических несоответствий в 80% оцененных моделей (например, последовательность активностей, противоречащая предполагаемой логике процесса, описанной в промпте).

7. Результаты

В данном исследовании представлена систематическая оценка пяти инструментов на основе LLM, предназначенных для генерации моделей BPMN из текстовых описаний процессов. С использованием стандартизированного подхода к оценке и структурированного экспериментального дизайна анализ позволил выявить несколько важных наблюдений. Основные выводы и их значение суммированы ниже:

(i) Современные инструменты на основе LLM способны моделировать сложные сценарии бизнес-процессов, требующие использования продвинутых конструкций BPMN, таких как шлюзы, основанные на событиях, и граничные события (подраздел 6.1). Корректное применение этих элементов демонстрирует глубокое понимание формальной нотации процессов, уровень которого приближается к экспертному. Это наблюдение подтверждает выводы работы , где отмечалось, что различить модели, созданные экспертами-человеками и LLM, не всегда просто.

(ii) Среди протестированных инструментов Camunda BPMN Copilot показал наиболее стабильные и качественные результаты по всем трём измерениям оценки: ясность, корректность и полнота (подраздел 6.2). Эти результаты указывают на высокую способность инструмента как к интерпретации логики процесса, так и к построению последовательных BPMN-диаграмм. Такая производительность, вероятно, объясняется эффективной интеграцией LLM-технологий обработки естественного языка с BPMN-средой моделирования Camunda Modeler. Это соответствует выводам работы , где подчёркивается, что приоритетом должна быть интеграция LLM с существующими предметно-специфичными инструментами, а не их изолированное обучение, поскольку моделирующие среды уже содержат накопленные знания о процессах, которые LLM сложно воспроизвести самостоятельно.

(iii) Инструменты, не поддерживающие продвинутые конструкции BPMN, часто пытаются отразить сложную логику процессов с помощью более простых или привычных элементов (подраздел 6.2). В результате создаваемые модели могут нарушать синтаксис или содержать семантические ошибки. В рамках данного исследования пример синтаксической ошибки был обнаружен в модели, созданной BA Copilot для запроса 2 , где шлюз “Выявлены упущения?” не имеет исходящих потоков последовательности. Аналогично, в модели, созданной Nala2BPMN для того же запроса , наблюдается семантическое нарушение: задача “Отправить автоматическое напоминание” размещена после задачи “Внести электронную запись в реестр водительских удостоверений”, что противоречит описанной в сценарии необязательной логике ненарушающего напоминания. Это подтверждает выводы работы , которые указывают, что в сложных сценариях LLM склонны к галлюцинациям, неверному пониманию входных данных и генерации структурно нестабильных или логически непоследовательных моделей процессов.

(iv) Между ясностью и корректностью LLM-сгенерированных моделей была выявлена сильная корреляция, что указывает на тесную взаимосвязь между этими двумя измерениями (подраздел 6.3). Это предполагает, что улучшение одного параметра может положительно влиять на другой. Повышение визуальной структурированности и читаемости моделей может способствовать синтаксической и семантической точности, а повышение корректности логики и синтаксиса может, в свою очередь, улучшить восприятие диаграмм. Хотя из одной лишь корреляции нельзя определить направление влияния, результаты показывают, что оптимизация инструментов LLM-моделирования с фокусом на одну из этих областей может принести выгоду обеим.

(v) Инструменты на основе LLM преимущественно сосредоточены на аспекте управления потоком (control flow), при этом в значительной степени игнорируют дополнительные аспекты, такие как ресурсы и данные (подраздел 6.4). Даже когда запрос явно упоминает участников процесса или элементы данных, инструменты, как правило, не отражают их в модели через соответствующие элементы BPMN, такие как пулы, дорожки или объекты данных. Хотя эти перспективы не являются строго обязательными для отображения потока управления, их отсутствие снижает полноту и контекстную насыщенность генерируемых моделей.

(vi) Несмотря на то, что рисунок 3 иллюстрирует высокий потенциал инструментов на основе LLM, он также указывает на необходимость осторожности. Даже при общем высоком качестве модель содержит небольшую синтаксическую ошибку: путь, инициируемый ненарушающим таймерным событием, не имеет собственного конечного события, что делает исключительный поток неполным (подраздел 6.1). Это показывает, что даже наиболее качественные результаты могут содержать структурные дефекты, нарушающие корректность. Кроме того, семантические ошибки были обнаружены в 80% исследованных моделей BPMN, что делает этот критерий одним из наиболее часто нарушаемых (подраздел 6.4). Это подчёркивает необходимость проверки людьми для гарантии структурной целостности и семантической точности моделей. Такое наблюдение согласуется с предыдущими исследованиями, где утверждалось, что из-за вероятностной природы LLM требуют экспертного надзора и пока не могут надёжно использоваться в профессиональной бизнес-среде без участия человека .

Следует с осторожностью интерпретировать полученные результаты, учитывая ряд ограничений. Во-первых, оценка проводилась на одном, хотя и формально обогащенном, сценарии процесса. Несмотря на то, что сценарий был выбран за счёт своей практической значимости и структурной сложности, использование лишь одного примера ограничивает обобщаемость результатов и затрудняет оценку стабильности работы инструментов в разных контекстах моделирования. Во-вторых, чтобы отразить реалистичные условия использования, исследование применяло стратегию выбора наилучшего результата из трёх попыток для каждого инструмента и запроса. Такой подход позволил оценить “лучший случай” работы инструмента, имитируя поведение пользователя, который пробует несколько запусков и выбирает наиболее точный результат. Однако это вносит элемент систематического смещения в сторону оптимальных результатов и может не отражать реальную среднюю надежность или изменчивость выходных данных инструментов. В-третьих, процесс оценки включал элемент субъективности, так как требовал экспертной интерпретации выполнения критериев качества. Чтобы минимизировать смещение и повысить надёжность, все пять авторов независимо заполнили оценочные таблицы, затем совместно рассмотрели и согласовали разногласия, достигая консенсуса. Тем не менее, полностью устранить субъективность невозможно, и некоторые различия в интерпретации могли повлиять на итоговые оценки.

Опираясь на результаты и ограничения данного исследования, можно выделить несколько перспективных направлений для будущих исследований. Во-первых, расширение оценки на более широкий набор сценариев из различных предметных областей повысит обобщаемость выводов и позволит более глубоко оценить надёжность инструментов в разных контекстах. Во-вторых, вместо фокусирования исключительно на лучших результатах, будущие работы могут анализировать усреднённые показатели, оценивая все сгенерированные модели, что позволит точнее определить степень стабильности и надёжности инструментов на практике. В-третьих, перспективным направлением является изучение интеграции пост-процессинговых механизмов валидации — как на основе правил, так и с использованием ИИ — для автоматического выявления и исправления распространённых синтаксических и семантических дефектов в BPMN-диаграммах. Наконец, исследования, ориентированные на пользователей (бизнес-аналитиков, моделировщиков и доменных экспертов), помогут оценить практическую применимость и доверие к данным инструментам в реальной среде моделирования.

В заключение, хотя современные инструменты на основе LLM демонстрируют обнадеживающие возможности, данное исследование показывает, что они пока не «говорят» на языке BPMN свободно, подчёркивая важность человеческого контроля. По мере развития технологий продуманная интеграция с существующими средами моделирования и повышение надёжности инструментов станут ключевыми шагами к раскрытию их полного потенциала в профессиональной практике моделирования бизнес-процессов.

Говорят ли LLM на языке BPMN? Оценка их возможностей моделирования процессов на основе качественных метрик - 6

BPM Developers — про бизнес-процессы: новости, гайды, полезная информация и юмор.

Автор: stas_makarov

Источник

Запись добавлена: 20.01.2026 в 06:01
Оставлено в

Говорят ли LLM на языке BPMN? Оценка их возможностей моделирования процессов на основе качественных метрик

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

1. Введение

2. Моделирование бизнес-процессов и появление инструментов на базе LLM

3. Методология исследования