Время прочтения: 2 мин.
Random Forest (Случайный лес) является одним из популярнейших и крайне эффективных методов решения задач Machine Learning, таких как классификация и регрессия.
Уже сегодня аудитор может использовать Random Forest на Python для решения текущих задач.
Мы делимся практическими достижениями в решении задач Machine Learning посредством Random Forest. С помощью этого метода был разработан проект по созданию модели классификации счетов требований к контрагентам Банка.
Предлагаем ознакомиться с кратким описанием стадий проекта:
- Сбор методик анализа счетов требований;
Аудитор в зависимости от стоящих перед ним задач выбирает критерии и параметры, на основании которых будет строиться Модель. - Выгрузка данных из АС Банка для обучающего и тестового набора примеров;
На основании выбранных критериев из АС Банка аудитором выгружаются все необходимые данные. - Разметка обучающего и тестового Data set;
На этом этапе основная задача аудитора — принять решение на основе имеющейся информации. Дерево решений — интуитивно понятная базовая единица алгоритма случайный лес. Его можно рассматривать как серию вопросов «да/нет» о входных данных. В конечном итоге вопросы приводят к предсказанию определенного класса. - Обучение Модели классификации на 80% данных;
Классификация объектов проводится путем голосования: предполагается, что каждое дерево будет относить конкретный счет требований к одному из классов, и победит тот класс, за который проголосовало наибольшее число деревьев. - Тестирование Модели на 20% данных;
Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку Модели на тестовой выборке. - Тиражирование данной Модели на всю систему.
В результате применения Random Forest была создана Модель, которая выделяет наиболее критичные классы требований. По сути, Модель — тот же аналитик, только со своей работой она справляется в 20 раз быстрее.
Учитывая, что данная Модель может быть применена для решения самых разнообразных задач аудитора мы предлагаем использовать универсальный алгоритм Random Forest для достижения новых результатов!