Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок?. BNPL.. BNPL. crm.. BNPL. crm. банки.. BNPL. crm. банки. данные.. BNPL. crm. банки. данные. данные пользователей.. BNPL. crm. банки. данные. данные пользователей. скоринг.

В этой статье я расскажу про новый тип данных для российского рынка – данные Whatsapp и Telegram: насколько они ценны и насколько легальны.

Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок? - 1

В России уже сложился рынок “больших данных”: данные для ML-моделей, рекламы и систем принятия решений продают Бюро кредитных историй, Ecom-компании (от крупных маркетплейсов и классифайдов до небольших приложений), Оффлайн ретейлеры, Операторы сотовой связи, различные агрегаторы и другие компании. Новые типы данных появляются на рынке не так часто. Одной из новинок в данных последних лет стали данные мессенджеров – данные Whatsapp и Telegram.

Сейчас их можно получить через API Whatsapp и Telegram, также эти API проинтегрированы в некоторые глобальные сервисы, которые в свою очередь доступны через различные интерфейсы, например через Python библиотеки (upgini, whappi, 2chat и пр.).

Какие фичи из Whatsapp и Telegram доступны:

– факт наличия профиля в WhatsApp и Telegram

– тип профиля (открытый / закрытый)

– флаг корпоративного профиля

– тип бизнеса корпоративного профиля

– оценка пола и возраста на основании открытых данных мессенджеров

– оценка настроения пользователя на основании открытых данных мессенджеров

– дата регистрации (соответственно срок жизни номера телефона)

Такие данные, конечно, могут быть полезны для различных скоринговых моделей: от оценки рисков до CRM и предсказания оттока.

Результаты тестирования данных мессенджеров в задаче кредитного скоринга

Данные WhatsApp и Telegram для ML-моделей: тренд или серый рынок? - 2

На графике выше сравниваются 3 типовых и 3 новых источника данных для кредитного скоринга.

1. Собственные данные

• Новые клиенты: анкета (пол, возраст, регион, доход, семейное положение, занятость) и device data (тип устройства, ОС, IP, браузер). Действующие клиенты: дополнительно учитывается история платежей

• IV: ~0,4 для новых клиентов

• ROC AUC: 0,67

2. Кредитная история (БКИ)

• Состав: расширенная кредитная история заемщика, содержащая информацию о запросах других кредитных учреждений, о выданных кредитах, платежной дисциплине и т.п.

• IV: 1,2

• ROC AUC: 0,78

3. Данные E-com

• Состав: транзакции в маркетплейсе, частота покупок, средний чек, категории приобретаемых товаров.

• IV: 0,1

• ROC AUC: 0,56

4. Данные B2B маркетплейса данных

• Состав: информация об использовании различных оффлайн и онлайн сервисов, частота использования, срок жизни, категории интересов.

• IV: 0,3

• ROC AUC: 0,63

5. Телеком данные

• Состав: скоринговый балл от мобильного оператора.

• IV: 0,3

• ROC AUC: 0,65

6. Данные мессенджеров

• Состав: регистрации и активность в глобальных мессенджерах и соцсетях, информация с публичных профилей, время с момента начала использования сервисов.

• IV: 0,2

• ROC AUC: 0,60

Однако, помимо практической ценности, возникает важный вопрос: насколько легально использование подобных данных?

Легальность данных из мессенджеров

  1. Персональные данные и политики конфиденциальности. В России действует Федеральный закон №152-ФЗ о персональных данных, в Европе — GDPR, в США — различные законы штатов (например, CCPA в Калифорнии). WhatsApp и Telegram строго регулируют обработку персональных данных. Любой сбор и использование информации о пользователях без их согласия может быть квалифицирован как нарушение законодательства. Поэтому любой запрос по номеру телефона к API Whatsapp и Telegram должен быть подтвержден конклюдивным действием – согласием пользователя на данный запрос.

  2. Данные из открытых профилей и фотографии. Переменные вроде оценки возраста, пола и настроения по фотографиям относятся к биометрическим и чувствительным персональным данным. В большинстве юрисдикций их сбор и обработка требуют отдельного согласия пользователя.

Вывод

Данные из WhatsApp, Telegram и других мессенджеров позволяют улучшить качество действующих клиентских ML-моделей (выявление мошенников/антифрод, оценка кредитных рисков, прогноз оттока). Однако использовать их можно только с согласия конечного пользователя.

Автор: Upgini

Источник

Rambler's Top100