Data Mining, Анализ данных

Random Forest & Задачи аудитора

Время прочтения: 2 мин.

Random Forest (Случайный лес) является одним из популярнейших и крайне эффективных методов решения задач Machine Learning, таких как классификация и регрессия.

Уже сегодня аудитор может использовать Random Forest на Python для решения текущих задач. 

Мы делимся практическими достижениями в решении задач Machine Learning посредством Random Forest. С помощью этого метода был разработан проект по созданию модели классификации счетов требований к контрагентам Банка.

Предлагаем ознакомиться с кратким описанием стадий проекта:

  1. Сбор методик анализа счетов требований;
    Аудитор в зависимости от стоящих перед ним задач выбирает критерии и параметры, на основании которых будет строиться Модель.
  2. Выгрузка данных из АС Банка для обучающего и тестового набора примеров;
    На основании выбранных критериев из АС Банка аудитором выгружаются все необходимые данные.
  3. Разметка обучающего и тестового Data set;
    На этом этапе основная задача аудитора — принять решение на основе имеющейся информации. Дерево решений — интуитивно понятная базовая единица алгоритма случайный лес. Его можно рассматривать как серию вопросов «да/нет» о входных данных. В конечном итоге вопросы приводят к предсказанию определенного класса.
  4. Обучение Модели классификации на 80% данных;
    Классификация объектов проводится путем голосования: предполагается, что каждое дерево будет относить конкретный счет требований к одному из классов, и победит тот класс, за который проголосовало наибольшее число деревьев.
  5. Тестирование Модели на 20% данных;
    Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку Модели на тестовой выборке.
  6. Тиражирование данной Модели на всю систему.

В результате применения Random Forest была создана Модель, которая выделяет наиболее критичные классы требований. По сути, Модель — тот же аналитик, только со своей работой она справляется в 20 раз быстрее.

Учитывая, что данная Модель может быть применена для решения самых разнообразных задач аудитора мы предлагаем использовать универсальный алгоритм Random Forest для достижения новых результатов!

Советуем почитать