- BrainTools - https://www.braintools.ru -
Реальный кейс: как LLM заменяет трех технологов на металлургическом заводе — и почему «универсальный подход» не сработал.
Представьте металлургическое предприятие полного цикла: 3200 человек и 4500 тыс номенклатуры, которая все время добавляется….
Как раньше происходила подготовка к испытаниям? Технолог открывал ГОСТ (или ОСТ, или другой нормативный документ), находил таблицу, подставлял в нее параметры номенклатуры, например, диаметр поковки. Находил нужное значение контроля и записывал в карту … Дальше технолог повторял эту процедуру для 40+ параметров контроля.
Оцените масштаб: более 4500 позиций номенклатуры, свыше 200 нормативных документов (ГОСТы, ОСТы), большинство из них – отсканированные документы советской эпохи в формате pdf.
На подготовку одной карты требовалось больше двух часов. Моя задача: сократить это время
Первый вопрос: почему не реализовать задачу через шаблонный парсер?
Не получится, потому что каждый ГОСТ оформлен по-своему. В одном ГОСТе параметры находятся в строках таблицы, в другом в примечаниях, в третьем размазаны по тексту с отсылками на другие разделы.
Нужен подход, который понимает смысл, а не только структуру.
А если использовать LLM как интеллектуальный парсер. Тогда задача выглядит так:
Вход:
Нормативный документ (ГОСТ/ОСТ) — скан в PDF
Характеристики номенклатуры (марка стали, диаметр заготовки, группа)
Промт:
Параметр контроля №1. Название + алгоритм, как его определить
Параметр контроля №2. Название + алгоритм, как его определить
…
Выход:
Таблица: Параметр контроля — Значение — Источник (раздел/таблица ГОСТа)
Я вижу цель. Дело за реализацией …
Вторая гипотеза была проста и красива: сделать универсальный промт для всех нормативных документов.
Я начал тестировать разные модели в Рerplexity. Первый ГОСТ зашел на “ура” – Claude Sonnet 4.6 верно определил 85% параметров, GPT 5.4 – 72%. Обе модели запускались в режиме Thinking.
Но победа оказалась сильно условной. На следующих ГОСтах обе модели упрямо ошибались. Я правил промт, однако ошибки [1] продолжались.
Что же, надежда на то, что LLM подсторится под все нормативные документы, не оправдалась. Система спотыкается на отличиях между ГОСТами – то параметр считается через вложенные таблицы, то задается константой.
Оставался один вариант: сделать промт привязанный к конкретному ГОСТу. Единственная неприятность, что на предприятие используется более 200 ГОСТов
Я уточнил, что 80% номенклатуры завода описывается в 18% ГОСТов. Знакомый со студенческой скамьи принцип Парето в действии.
Для пилота было решено взять 20 наиболее используемых документов.
Для каждого ГОСТа я создал свой промт с правилами:
Название параметра: ГОСТ
В какой таблице/разделе ГОСТа описывается параметр
Как интерпретировать граничные случаи (диапазоны, «не менее», «не более»)
На вход промта я подавал параметры номенклатуры и ГОСТ в pdf формате.
На выходе получал таблицу:
Если возникали ошибки (куда без них?), то в диалог Perplexity скидывал скриншот, указывал верные параметры и просил объяснить ошибку. Получив верный результат, давал волшебную команду
Обнови Правило XX так чтобы ошибка больше не повторялась
Потребовалось 9 итераций: зато сейчас система извлекает параметры для выбранных ГОСТов без ошибок.
Потраченное время – 14 рабочих дней.
И главный результат: время подготовки карты контроля теперь составляет 3-5 минут минут. То есть в 24 раза меньше чем было
Добавляю в систему новые ГОСТы и строю следующий слой:
Все правила хранятся в Excel-таблице (а не в промте – чтобы технологи сами правили параметры).
На вход промта подается Excel таблица
На выходе — таблица для загрузки во внутреннюю информационную систему предприятия
Современные ИИ справляются с обработкой pdf сканов документов. Сложные структуры, вложеннне таблицы и даже качество сканирования уже не проблема.
Принцип Парето вам в помощь. Не пытайтесь сразу оцифровать все документы. Найдите 20% документов, которые содержат большую часть номенклатуры и начните с них.
Промт под конкретный документ, а не универсальный. Это противоречит интуиции [2] и не так красиво, однако практично.
Итеративная отладка. Большинство ошибок у меня было с распознованием вложенных таблиц разных ГОСТов. Я сделал единые правила для таблиц и ошибки исчезли.
Claude Sonnet. Лучше всего разбирает сложные документы
Этот подход работает для любой отрасли, где есть:
Большой массив нормативных документов (ГОСТы, ОСТы, СНиПы)
Документы без конфиденциальной информации
Ручной перенос параметров из документов в информационные системы
Разнородное форматирование — документы разного качества и формата
Например, металлургия, машиностроение, химическая промышленность, строительство, фармацевтика, энергетика.
Если у вас похожие задачи: нормативная документация, параметры контроля, рутинное извлечение данных из регламентов, напишите в комментарии или в личку. Расскажу, с чего начать и подарю самые неочевидые грабли. Кейс живой, замечания и вопросы однозначно приветствуются.
Автор: Kudryavtsev-AiPrRocknRoll
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28189
URLs in this post:
[1] ошибки: http://www.braintools.ru/article/4192
[2] интуиции: http://www.braintools.ru/article/6929
[3] Источник: https://habr.com/ru/articles/1018692/?utm_campaign=1018692&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.