Графовые нейросети для прогноза дефолта физических лиц. deep learning.. deep learning. PD.. deep learning. PD. графы.

Всем привет! С вами снова команда прикладных исследований Альфа-банка. В этой статье мы продолжим рассказ про наши подходы к моделированию вероятности дефолта (PD) физических лиц и расскажем об экспериментах с графовыми нейронными сетями на социальных связях клиентов.

Интересующийся читатель может также предварительно прочитать про нейросетевые подходы к построению PD-моделей на последовательных данных.

Описание данных

Коротко напомним про постановку проблемы. Суть кредитного скоринга заключается в оценке рисков банка при выдаче кредита заемщику. Для этого вводится понятие вероятности дефолта (далее — PD). Классическое определение дефолта — наличие просроченной задолженности в течение более 90 дней подряд на горизонте года от даты скоринга.

Раньше мы всегда рассматривали каждого клиента банка индивидуально, но это представление является неполным. Клиенты банка образуют множество разнообразных связей как друг с другом, так и с неклиентами, информация о чём может быть очень полезной для предсказания того, выйдет ли тот или иной клиент в дефолт или нет.

Информация о таких связях естественным образом образует граф. Полученный нами граф имеет примерно 50 млн вершин и 500 млн узлов.

Эти данные можно обрабатывать двумя способами:

Способ №1. На основе информации о вершинах и ребрах графа создать витрину табличных признаков.

Классический подход, требующий довольно длительного времени для генерации и тестирования признаков, а также на вывод готовых витрин с признаками в промышленную эксплуатацию. Далее полученные табличные признаки подаются в градиентный бустинг или логистическую регрессию в качестве одного из доменов. В качестве плюсов такого подхода можно отметить то, что он может быть легко имплементирован в классические алгоритмы машинного обучения. Главным минусом является то, что неявная информация о характеристиках связей теряется, в результате чего теряется контекст.

№2. Можно построить графовую нейронную сеть. Такой способ является довольно требовательным к вычислительным ресурсам и объему данных, однако имеет ряд неоспоримых преимуществ перед классическими подходами. В частности, он позволяет учесть топологию графа связей, учесть характеристики не только вершин, но и ребер графа, а также способен делать прогноз даже при отсутствии части информации о связях и узлах графа, восстанавливая информацию из контекста.

Мы не будем подробно останавливаться на теоретическом описании графовых нейросетей. При желании читатель может легко найти много хороших теоретических разборов алгоритмов их работы.

Архитектура решения

Для построения социального графа мы использовали 6 типов связей:

  • переводы между счетами,

  • переводы по СБП,

  • реферальная программа,  

  • общие карты,

  • совместные займы,

  • связи по адресу.

В нашей команде уже было «табличное» решение, которое собирало контекст вокруг клиента — его ближайшее окружение. Мы брали несколько источников связей и по каждому независимо строили одношаговое окружение (one-hop): список лиц, с которыми у клиента есть связь. При этом в окружение попадали только те соседи, для которых доступен скор вторичной модели (риск-модели, которую обучают отдельно от нашей).

Дальше мы агрегировали (усредняли) скор по окружению. Для транзакционных связей использовали взвешенное среднее: чем больше сумма переводов и/или количество операций между клиентом и контрагентом, тем больше вклад этого контрагента в итоговый скор.  

Для остальных источников применяли обычное среднее.

Ограничения подхода

Подход в целом работал и давал эффект, но у него были заметные ограничения:

  1. Нет взаимодействия между источниками: каждый канал связи учитывается отдельно и «перекрёстные» эффекты теряются.  

  2. Слишком простая зависимость важности от переводов: вес контрагента растёт монотонно только с суммой/числом транзакций без учёта более сложных паттернов.  

  3. Теряется часть полезных деталей: в агрегировании пропадает явная информация о размерах и количестве переводов, а также о частоте и давности связей (особенно по нетранзакционным источникам) для каждого соседа конкретно.  

  4. Отбрасываем часть соседей: если по контрагенту нет скора вторичной модели, он исключается из окружения, даже если по нему можно собрать признаки и он потенциально важен.

Поэтому мы решили агрегировать больше информации об окружении клиентов с помощью графовой нейросети.

Признаками ребер нашего графа являются следующие характеристики:

  1. Количество и размер транзакций по внутренним переводам.

  2. Стандартное отклонение размера транзакций.

  3. Количество связей и дней с последней связи по реферальной программе.

  4. Количество связей и дней с последней связи по общим картам.

  5. Количество связей и дней с последней связи по общим заявкам на потребкредит.

  6. Флаг наличия общего мобильного устройства.

  7. Количество и размер транзакций по переводам СБП.

  8. Стандартное отклонение размера транзакций по СБП.

  9. Количество связей и дней с последней связи по общим заявкам на ипотеку.

  10. Максимальная степень близости из указанных в заявках на ипотеку.

Дальше перед нами встал вопрос о том, какие признаки отнести к вершинам.

В Альфа-банке есть довольно большой Feature store с десятками тысяч признаков, однако в силу ограниченности во времени и специфики задачи мы решили взять готовые эмбеддинги нейросетевой модели на данных БКИ, описанные в предыдущей статье.

Это решение имеет и логическое обоснование: при предположении, что дефолтные заемщики образуют в графе кластеры, их эмбеддинги должны отражать эту структуру и помогать выявлять такие группы. Однако в дальнейшем при развитии описываемого подхода мы протестируем эффект от добавления табличных фичей различной природы на ноды графа.

В качестве ядра модели была выбрана архитектура GATv2. 

GATv2 архитектура

Все числовые признаки мы кодировали с помощью Piecewise-Linear Embeddings (PLE) из yandex-research. Инициализацию бинов выполняли через квантили — их удобно и стабильно считать даже на больших объёмах данных. PLE применялись как к признакам вершин, так и к признакам рёбер: такой подход позволяет модели «видеть» числовые фичи в контексте всего распределения, а не привязываться к отдельным абсолютным значениям.

В построении модели на базе GATv2Conv можно выделить два характерных паттерна.

№1. Классический message passing. Графовые свёртки идут последовательно, а между ними используются нелинейности и (опционально) нормализация.

№2. Трансформероподобный вариант. Между слоями GATv2Conv добавляются FFN-блоки, которые помогают аккумулировать информацию и «подготовить» представления вершин к следующему обмену сообщениями.

Графовые нейросети для прогноза дефолта физических лиц - 1

Важно учитывать, что графовая свёртка в первую очередь отвечает за передачу информации между соседями, но сама по себе добавляет меньше нелинейности, чем MLP и функции активации. Нелинейная выразительность в таких архитектурах в значительной степени обеспечивается именно MLP-блоками.

По нашим экспериментам, если графовые свёртки используются строго последовательно (1 пункт), то более эффективно не усложнять readout-слои (MLP блок который обрабатывает эмбеддинги от Gat слоев и выдает логит) в конце, а усиливать MLP-блок перед первым GAT-слоем для признаков вершин. Интуитивно это выглядит так: модель сначала приводит представления вершин в «удобное» пространство, и уже затем максимально эффективно использует обмен сообщениями.

Тем не менее, лучшим по качеству оказался вариант с FFN между GAT-слоями (2 пункт) — он обошёл обе вариации классического message passing, описанные выше.

Обратные рёбра

Заметный прирост качества дала работа с обратными рёбрами. Наш граф в целом двунаправленный, так как, например, транзакции могут идти в обе стороны между клиентами, но не все связи имеют пару в обратную сторону (например, клиент A получал перевод от B, но B не получал переводов от A).

Мы последовательно внедрили два улучшения:

  1. Добавили семплирование обратных рёбер при построении подграфа.  

  2. Начали искусственно добавлять обратные рёбра, если их нет.

Оба изменения дали аплифт к исходным метрикам.

При искусственном добавлении обратных рёбер мы рассмотрели два способа формирования атрибутов нового ребра:

  1. Копировать признаки исходного ребра.  

  2. Выставлять значения, соответствующие отсутствию связи (условный «no‑edge» / «missing relation» паттерн), например, устанавливаем размер переводов между клиентами равным 0, что соответствует отсутствию связи.

Оба варианта дали сопоставимый результат (в пределах погрешности), поэтому предпочтительнее второй — у него более прозрачная и интуитивная интерпретация.

Мы остановились на 2-hop окружении, как на наиболее удачном компромиссе между информативностью и вычислительными затратами. Количество соседей ограничили числом 100 на первом hop-е и 200 на втором hop-е, что покрывает 99.8% и 99.9% распределения соседей соответственно.

Для ускорения экспериментов нам также помогла статья «Small batch size training for language models: when vanilla sgd works, and why gradient accumulation is wasteful». В данной статье явно показано, как при уменьшении batch_size расширяется пространство гиперпараметров, где трансформерные модели сходятся. Несмотря на рост времени одного цикла обучения модели из-за уменьшения batch size, суммарно мы выиграли время за счёт более быстрого и стабильного подбора гиперпараметров (меньше итераций «впустую» в поисках устойчивой сходимости).

Что еще попробовали? Hyper Connections показали хороший результат, однако в финальный пайплайн они не вошли из‑за необходимости дальнейшей оптимизации и заметного роста потребления памяти.

Из простых аугментаций, которые легко встраиваются в пайплайн, мы протестировали DropEdge и DropNode, но в нашем случае они не улучшили обобщающую способность модели.

Итоговый эффект

Совокупность описанных приёмов дала аплифт к модели на последовательностях БКИ (эмбеддинги которой использовались как признаки вершин) примерно на +5 п. Gini. Схожий прирост подтвердился и в эксперименте, где мы смешивали графовые эмбеддинги и эмбеддинги БКИ-модели.

Финальная архитектура модели выглядит следующим образом:

Графовые нейросети для прогноза дефолта физических лиц - 2

Она включает в себя 4 трансформер-блока с вниманием, реализованным через Gatv2Conv и простой FFN с GeLU в качестве функции активации. 

Что планируем пробовать дальше

№1. Сейчас все GAT-слои используют одинаковые edge-атрибуты (полученные через Linear и LayerNorm от PLE-эмбеддингов). Планируем добавить небольшой MLP перед подачей edge_attr в GAT, чтобы внести нелинейность и дать модели возможность лучше «подстроить» признаки рёбер.

Графовые нейросети для прогноза дефолта физических лиц - 3

№2. Заменить LayerNorm на DyT. Ожидаем потенциальное ускорение обучения без деградации качества.

№3. Заменить FFN на FFN из MoE, что увеличит число обучаемых параметров без заметного роста вычислительных затрат.

№4. Вернуться к Hyper Connections, но для этого потребуется оптимизация вычислений на CUDA, чтобы удержать потребление памяти и время обучения в разумных пределах.

№5. Переход к гетерогенным графам, например, добавление вершин магазинов, где совершают покупки клиенты юрлиц, являющихся работодателем клиентов и.т.п.

В целом наше предположение о том, что добавление информации о связях заёмщиков приводит к повышению качества прогноза дефолта, полностью подтвердилось. Совместно с бизнес-заказчиком было решено внедрить графовую нейронную сеть в качестве модуля в общую PD-модель для физических лиц.

В дальнейших планах мы хотим попробовать применить графовые нейросети в других задачах, где информация о связях может быть важной, например в задачах антифрода и задаче прогнозирования дохода клиента.

Автор: boyfromws

Источник