Анализ данных, Кластеризация

Применение методов машинного обучения для обнаружения FRAUD.

Время прочтения: 5 мин.

ФРОД (от англ. FRAUD – «мошенничество», «обман») – вид мошенничества, в частности, несанкционированные действия и неправомерное использование ресурсов и услуг.

ФРОД оказывает негативное воздействие на деятельность организации, например, искажается управленческая отчетность, что приводит к непринятию важных решений, или неправомерно используются вычислительные и человеческие ресурсы организации, а также появляются репутационные и правовые риски, связанные с жалобами и претензиями клиентов. Все эти факторы в итоге приводят к прямым финансовым потерям для организации.

Существует 2 основных подхода для выявления ФРОД:

1. Экспертный подход (его еще называют аналитическим или индикативным)

Сначала происходит сбор информации о наличии ФРОД из различных источников данных (обращения клиентов, инциденты операционного риска, СМИ и т.д.)

Далее эксперты проводят анализ полученной информации для выделения дефектов в процессе, создающих предпосылки для появления ФРОД, и определяют однозначные признаков выделения ФРОД из общего массива данных. Происходит построение алгоритмов с использованием SQL-запросов, макросов и других прикладных инструментов.

Разработанные алгоритмы встраиваются в Анти-ФРОД мониторинг, который автоматически обнаруживает операции, имеющие установленные ранее признаки ФРОД.

Анти-ФРОД мониторинг работает до тех пор, пока признаки выявления не станут очевидны для недобросовестных работников и контрольная среда не подстроится под существующие алгоритмы. Тогда начинается новый цикл, появляются новые схемы мошенничества, строятся новые алгоритмы и т.д.

2. Применение методов машинного обучения

Жизненный цикл процесса исследования данных по методологии CRISP-DM состоит из следующих этапов:

Первый этап («Понимание бизнеса») заключается в постановке целей и требований к проекту.

На втором этапе («Понимание данных») происходит оценка качества данных, их полноты и достаточности для формирования предварительных гипотез.

На третьем этапе («Подготовка данных») осуществляется поиск зависимостей, генерация признаков и формирование итогового DataSet.

На этапе «Моделирование» к DataSet применяются различные модели машинного обучения и осуществляется настройка их гиперпараметров.

Результаты моделирования переходят на этап оценки, где происходит анализ достижения поставленных целей и принимается решение о переходе к этапу внедрения, либо к началу цикла, либо принимается решение о прекращении проекта.

Рассмотрим пример применения методов машинного обучения для поиска ФРОД в продажах услуги «автоплатеж».

DataSet сформирован по данным о продажах сотрудников и данным по перечислениям в рамках автоплатежей, и состоит из 490 признаков:

· признаки по конкретной продаже (например, возраст клиента, продажи в нерабочее время, разницы в датах продажи, отключения, исполнения автоплатежей и т.д.);

· агрегированные статистические признаки, которые учитывают смещение во времени (например, продажи сотрудника за период, продажи ВСП за период, суммы исполненных, отмененных автоплатежей по сотруднику, клиенту и т.д.)

Информации о реальных случаях интересующего нас вида ФРОД во входящих данных нет, поэтому применяем алгоритмы исследования данных и построения моделей без размеченных данных, т.е. «без учителя», а в частности, поиск аномалий в продажах.

Основная идея: визуализировать данные и выделить аномальные объекты одним из методов кластеризации. Для отображения на графике размерность DataSet снижена с использованием одного из самых распространенных методов – метода главных компонент.

На графике видны ярко выраженные кластеры, и даже аномальный кластер справа.

Интерпретация данных показала, что разделение на кластеры происходит по типам продуктов: снизу автоплатеж ЖКХ, по центру автоплатеж за сотовую связь, сверху автоплатеж ГИБДД.

Аномальный кластер справа оказался кластером продаж автоплатежей за сотовую связь, основные данные по которым отсутствуют во входящей информации.

Аномалии обнаружены, но это не то, что нам нужно, поэтому исключаем их и идем дальше.

Дальнейшее исследование данных в отдельном кластере автоплетежей ЖКХ привело к новому разделению: продажи консультантов и продажи других сотрудников.

Аналогичное исследование продаж консультантов привело к разделению по каналам подключения услуги: с одной стороны устройства самообслуживания, с другой – все другие.

Проведенные исследования привели к необходимости пересмотра

DataSet

и исключения признаков, наиболее сильно влияющих на такой результат кластеризации: были исключены признаки, указывающие на тип продукта, должность сотрудника и канал продажи.

Визуализации нового DataSet показала наличие слабовыраженных кластеров и отсутствие аномальных кластеров.

Итак, идея выделить аномальный кластер не привела к ожидаемому результату, поэтому попробуем применить модели машинного обучения для поиска аномалий.

Применим 3 модели поиска аномалий:

1) изолирующий лес

2) метод опорных векторов с ядром RBF (радиальная базисная функция)

3) метод опорных векторов с ядром poly (полином)

Критичными признаем те операции, которые идентифицированы как аномальные всеми тремя моделями – получим около 1300 таких операций. Полученные результаты были направлены на подтверждение, и в 30% случаевФРОД был подтвержден.

Итак, если проводить общее сравнение двух основных подходов поиска ФРОД, то можно отметить, что преимущества одного подхода являются ограничением для второго. Например, машинное обучение имеет широкий спектр выявления закономерностей, что не всегда подвластно восприятию человека. Соответственно, контрольная среда не сможет адаптироваться к таким процедурам. Если проводить сравнение данных подходов по критерию участия экспертов и требованиям к их компетенциям, то можно отметить, что в случае методов машинного обучения требования несколько смещаются от необходимости понимания бизнес-процессов к компетенциям по статистике, линейной алгебре, теории вероятности, навыкам программирования, исследования и интерпретации данных.


Советуем почитать