ИИ в ЭДО: история одного кейса для хакатона от МТС. большие данные.. большие данные. искуственный интеллект.. большие данные. искуственный интеллект. командная работа.. большие данные. искуственный интеллект. командная работа. Машинное обучение.. большие данные. искуственный интеллект. командная работа. Машинное обучение. мифи.. большие данные. искуственный интеллект. командная работа. Машинное обучение. мифи. мтс линк.. большие данные. искуственный интеллект. командная работа. Машинное обучение. мифи. мтс линк. Хакатоны.

Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.

ИИ в ЭДО: история одного кейса для хакатона от МТС - 1

Зачем компании участвуют в хакатонах

Есть мнение, что авторы задач ждут результат, который можно сразу взять и применить. Логика простая: если потратили время, значит, ждут профит. Но получить с хакатона быструю и «прямую» выгоду не выйдет.

Разработка прототипа занимает 48 часов, а вот его внедрение в продуктовую среду с учетом всех требований по безопасности и архитектуре отнимет гораздо больше времени. Хакатон нужно рассматривать как долгие инвестиции. Автор кейса скорее получает проверку идеи, а не готовый продукт. И решение о реализации — это совсем другой вопрос.

Участники хакатона со своей стороны ждут опыт быстрой разработки, поэтому кейс должен быть в принципе решаемым за отведенное время. Для этого нужно подготовить хороший датасет, который будет отражать все возможные ситуации с исходными данными. Кроме того, необходимо заложить элемент соревнования в реализации, дизайне или идеях. Очень важно избежать точного описания требований и не превратить его в техническое задание.

Приняв все эти вводные, мы начали подготовку кейса по электронному документообороту — направлению разработки моей команды «Среда ЭДО» МТС. В ЭДО много правил и регуляторики, и тут тяжело подобрать идею для хакатона.

Как мы придумывали задание

У меня была гипотеза: применение ИИ-инструментов для автоматизации ЭДО не требует больших трудозатрат, и MVP могут быть созданы малыми командами за короткое время. Формализованные XML-документы и так являются машиночитаемыми и для ИИ какой-то сложности не представляют. А вот неформализованные гораздо интереснее. Это чаще всего PDF, JPG и другие форматы, которые не являются машиночитаемыми. Для ЭДО работа с ними — это большие трудозатраты, риски ошибок и потенциального мошенничества, поэтому здесь постоянно ищут варианты автоматизации обработки документов.

Сначала я стал выделять несколько наших задач, которые мы могли бы предложить на хакатоне. Но сразу же по ним появились сомнения. Участники раньше не сталкивались с ЭДО, и быстро погрузиться в эту тему им будет сложно. Несмотря на то, что бизнес-процессов в ЭДО достаточно много, приземлить их на условия хакатона без продуктового или экосистемного контура МТС казалось крайне сложной задачей.

Создание датасета

Для работы с ИИ и LLM-моделями необходим достаточный объем данных. Коллеги рекомендовали подготовить датасет не менее чем на 10 000 документов. На части из них будут обучаться LLM-модели, а другие будут использованы для демоработы прототипа продукта.

Найти 10 000 неформализованных документов — задача нетривиальная. В МТС почти все они содержат персональные данные, и передать их в исходном виде участникам хакатона нельзя. Вариант подписания дополнительных соглашений с организаторами оказался сложным процессом с точки зрения юристов.

Далее мы стали думать, как убрать или замаскировать персональные данные или заменить на фиктивные. Быстро поняли, что это тупик: так теряется уникальность документов, они становятся похожими друг на друга. Обучить LLM-модель на таких данных практически невозможно, и кейс может стать для участников нерешаемым. В результате пришли к тому, что нужно использовать публичные данные. Но откуда их взять?

После долгих консультаций с экспертами в МТС мы остановились на системе раскрытия информации на рынке ценных бумаг — disclosure.ru. Там содержатся однотипные ежеквартальные финансовые отчеты как МТС, так и других компаний. Они представлены в формате PDF, в них есть таблицы и картинки — все с разным качеством и разрешением. Таким образом, распознавание документов стало сложной, но решаемой задачей.

Кроме того, гораздо легче стала задача извлечения и категоризации — все пункты отчетов у разных компаний одинаковые и интуитивно понятные. Аналитик команды сможет выбрать данные для извлечения без знаний в области финансов.

Такая постановка кейса максимально приблизила нас к проверке моей гипотезы, что ИИ-инструмент возможно сделать быстро и на реальных данных. В результате большая задача «ИИ для ЭДО» была конкретизирована. Для выполнения условий хакатона мы дополнительно попросили:

  1. Сделать витрину для финансовой аналитики по документам датасета.

  2. Представить на витрине чат-бота на основе RAG-системы, который мог бы по результатам аналитики работать в режиме «вопрос-ответ».

Для реализации этих пунктов от команды участников хакатона требуется работа аналитика, дизайнера и frontend-разработчика. В результате кейс стал универсальным для создания «киллер-фич» по различным направлениям: можно было сделать красивую аналитику, применить интересный алгоритм и много чего еще.

В итоге у нас получилась задача AIDoc Processing «Система аналитики финансовых электронных документов RAG-инструментами». Участникам нужно было спроектировать и реализовать один или нескольких сценариев обработки документов (распознавание текста, экстракция атрибутов, суммаризация и пр.) и предложить новые варианты применения технологий в процессе работы с документами.

Решения участников

На самом деле все команды смогли обработать исходные документы. Но в лидерах оказались те, у кого были грамотные аналитики и кто смог взять нужные данные и представить их красиво. Решения победителей хакатона подразумевали масштабирование на обработку финансовых документов любых компаний и дальнейший сравнительный анализ.

Победила в нашем треке команда «108» из Университета Иннополис со своим «Финансистом». Ребята обучили на 500+ документах свое решение и разработали для него интерфейс в корпоративном стиле, где можно было посмотреть результаты в виде графиков и таблиц. Кроме того, можно было узнать дополнительные данные в чат-боте RAG-интерфейса, адаптированного для мобильных устройств. Жюри отметило такие функции чат-бота, как цитирование источника, указание ответа в документе и т. п.

Пример ответа с дополнением в виде таблицы

Пример ответа с дополнением в виде таблицы

Интересное решение вышло у серебряных призеров — команды «Misis_banach_space» из МИСИС. Они смогли обработать более 20 000 документов и сделали отдельные интерфейсы для мобильных устройств и чат-бота:

ИИ в ЭДО: история одного кейса для хакатона от МТС - 3

Итоги

Этот хакатон показал нам, что правильная постановка кейса может сделать его очень интересным и для участников, и для партнеров. Мы смогли конкретизировать задание из предметной области так, чтобы явно выделить конкурсные составляющие кейса:

  • выборка исходных данных;

  • формирование финансовых отчетов;

  • интерфейс прототипа.

На все элементы мы не накладывали жестких ограничений, и это было правильное решение, так как мы хотели дать больше пространства для творчества. Любое сужение требований приведет к тому, что решения станут похожими друг на друга и будет тяжело их оценивать.

После хакатона мы собрали обратную связь от участников. Все отметили, что он был очень интересным и понятным, а участники получили на нашем треке классный опыт. Ребята из misis_banach_space по результатам хакатона подготовили доклад и рассказали о своем кейсе на Международном Форуме ЭДО, который проводится «Ассоциацией РОСЭУ».

Участникам будущих хакатонов я желаю не бояться трудностей и выбирать интересные и сложные кейсы, где можно показать свою экспертизу и креативность. Остерегайтесь простых задач, которые похожи на техническое задание. Там тяжело будет придумать что-то интересное и необычное.

Автор: karkhipov

Источник

Rambler's Top100