Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.

Зачем компании участвуют в хакатонах
Есть мнение, что авторы задач ждут результат, который можно сразу взять и применить. Логика простая: если потратили время, значит, ждут профит. Но получить с хакатона быструю и «прямую» выгоду не выйдет.
Разработка прототипа занимает 48 часов, а вот его внедрение в продуктовую среду с учетом всех требований по безопасности и архитектуре отнимет гораздо больше времени. Хакатон нужно рассматривать как долгие инвестиции. Автор кейса скорее получает проверку идеи, а не готовый продукт. И решение о реализации — это совсем другой вопрос.
Участники хакатона со своей стороны ждут опыт быстрой разработки, поэтому кейс должен быть в принципе решаемым за отведенное время. Для этого нужно подготовить хороший датасет, который будет отражать все возможные ситуации с исходными данными. Кроме того, необходимо заложить элемент соревнования в реализации, дизайне или идеях. Очень важно избежать точного описания требований и не превратить его в техническое задание.
Приняв все эти вводные, мы начали подготовку кейса по электронному документообороту — направлению разработки моей команды «Среда ЭДО» МТС. В ЭДО много правил и регуляторики, и тут тяжело подобрать идею для хакатона.
Как мы придумывали задание
У меня была гипотеза: применение ИИ-инструментов для автоматизации ЭДО не требует больших трудозатрат, и MVP могут быть созданы малыми командами за короткое время. Формализованные XML-документы и так являются машиночитаемыми и для ИИ какой-то сложности не представляют. А вот неформализованные гораздо интереснее. Это чаще всего PDF, JPG и другие форматы, которые не являются машиночитаемыми. Для ЭДО работа с ними — это большие трудозатраты, риски ошибок и потенциального мошенничества, поэтому здесь постоянно ищут варианты автоматизации обработки документов.
Сначала я стал выделять несколько наших задач, которые мы могли бы предложить на хакатоне. Но сразу же по ним появились сомнения. Участники раньше не сталкивались с ЭДО, и быстро погрузиться в эту тему им будет сложно. Несмотря на то, что бизнес-процессов в ЭДО достаточно много, приземлить их на условия хакатона без продуктового или экосистемного контура МТС казалось крайне сложной задачей.
Создание датасета
Для работы с ИИ и LLM-моделями необходим достаточный объем данных. Коллеги рекомендовали подготовить датасет не менее чем на 10 000 документов. На части из них будут обучаться LLM-модели, а другие будут использованы для демоработы прототипа продукта.
Найти 10 000 неформализованных документов — задача нетривиальная. В МТС почти все они содержат персональные данные, и передать их в исходном виде участникам хакатона нельзя. Вариант подписания дополнительных соглашений с организаторами оказался сложным процессом с точки зрения юристов.
Далее мы стали думать, как убрать или замаскировать персональные данные или заменить на фиктивные. Быстро поняли, что это тупик: так теряется уникальность документов, они становятся похожими друг на друга. Обучить LLM-модель на таких данных практически невозможно, и кейс может стать для участников нерешаемым. В результате пришли к тому, что нужно использовать публичные данные. Но откуда их взять?
После долгих консультаций с экспертами в МТС мы остановились на системе раскрытия информации на рынке ценных бумаг — disclosure.ru. Там содержатся однотипные ежеквартальные финансовые отчеты как МТС, так и других компаний. Они представлены в формате PDF, в них есть таблицы и картинки — все с разным качеством и разрешением. Таким образом, распознавание документов стало сложной, но решаемой задачей.
Кроме того, гораздо легче стала задача извлечения и категоризации — все пункты отчетов у разных компаний одинаковые и интуитивно понятные. Аналитик команды сможет выбрать данные для извлечения без знаний в области финансов.
Такая постановка кейса максимально приблизила нас к проверке моей гипотезы, что ИИ-инструмент возможно сделать быстро и на реальных данных. В результате большая задача «ИИ для ЭДО» была конкретизирована. Для выполнения условий хакатона мы дополнительно попросили:
-
Сделать витрину для финансовой аналитики по документам датасета.
-
Представить на витрине чат-бота на основе RAG-системы, который мог бы по результатам аналитики работать в режиме «вопрос-ответ».
Для реализации этих пунктов от команды участников хакатона требуется работа аналитика, дизайнера и frontend-разработчика. В результате кейс стал универсальным для создания «киллер-фич» по различным направлениям: можно было сделать красивую аналитику, применить интересный алгоритм и много чего еще.
В итоге у нас получилась задача AIDoc Processing «Система аналитики финансовых электронных документов RAG-инструментами». Участникам нужно было спроектировать и реализовать один или нескольких сценариев обработки документов (распознавание текста, экстракция атрибутов, суммаризация и пр.) и предложить новые варианты применения технологий в процессе работы с документами.
Решения участников
На самом деле все команды смогли обработать исходные документы. Но в лидерах оказались те, у кого были грамотные аналитики и кто смог взять нужные данные и представить их красиво. Решения победителей хакатона подразумевали масштабирование на обработку финансовых документов любых компаний и дальнейший сравнительный анализ.
Победила в нашем треке команда «108» из Университета Иннополис со своим «Финансистом». Ребята обучили на 500+ документах свое решение и разработали для него интерфейс в корпоративном стиле, где можно было посмотреть результаты в виде графиков и таблиц. Кроме того, можно было узнать дополнительные данные в чат-боте RAG-интерфейса, адаптированного для мобильных устройств. Жюри отметило такие функции чат-бота, как цитирование источника, указание ответа в документе и т. п.

Интересное решение вышло у серебряных призеров — команды «Misis_banach_space» из МИСИС. Они смогли обработать более 20 000 документов и сделали отдельные интерфейсы для мобильных устройств и чат-бота:

Итоги
Этот хакатон показал нам, что правильная постановка кейса может сделать его очень интересным и для участников, и для партнеров. Мы смогли конкретизировать задание из предметной области так, чтобы явно выделить конкурсные составляющие кейса:
-
выборка исходных данных;
-
формирование финансовых отчетов;
-
интерфейс прототипа.
На все элементы мы не накладывали жестких ограничений, и это было правильное решение, так как мы хотели дать больше пространства для творчества. Любое сужение требований приведет к тому, что решения станут похожими друг на друга и будет тяжело их оценивать.
После хакатона мы собрали обратную связь от участников. Все отметили, что он был очень интересным и понятным, а участники получили на нашем треке классный опыт. Ребята из misis_banach_space по результатам хакатона подготовили доклад и рассказали о своем кейсе на Международном Форуме ЭДО, который проводится «Ассоциацией РОСЭУ».
Участникам будущих хакатонов я желаю не бояться трудностей и выбирать интересные и сложные кейсы, где можно показать свою экспертизу и креативность. Остерегайтесь простых задач, которые похожи на техническое задание. Там тяжело будет придумать что-то интересное и необычное.
Автор: karkhipov