Время прочтения: 8 мин.

Я хочу начать с небольшой истории об «почти анализе больших данных», которая случилась около 150 лет назад. Это была эпоха расцвета большого морского парусного флота. Почти вся международная торговля осуществлялась морем. И скорость торгового флота была очень важным фактором. Однако, в то время, повлиять на неё можно было лишь двумя способами изобрести более быстрые корабли и совершать плавание с наименьшим количеством остановок. Этого было недостаточно, требовалось иное решение. И оно было найдено, довольно любопытным способом. Американский морской офицер Мэтью-Фонтейн Мори (Matthew-Fontaine Maury) был весьма разносторонним человеком, который, кроме всего прочего, имел прозвище «Следопыт морей» (Pathfinder of the Seas). Он совершил несколько продолжительных плаваний, но после травмы ноги,  его перевели на береговую должность. Там Мори посвятил всё свое время изучению навигации, метеорологии, ветров и течений. В архиве ему были доступны все корабельные журналы, которые были собраны и написаны капитанами за длительный период времени. Там содержался гигантский объем информации о ветре, температуре, атмосферном давлении и течениях в различных точках мирового океана. Мэтью Мори был первым, кто увидел потенциал такого рода данных. Он собрал команду людей, и вместе они проанализировали журналы многих различных путешествий в течение нескольких лет, они создали карты, которые позволили капитанам находить идеальный маршрут для их путешествий. Этот новый подход к построению маршрутов торгового флота оказал мощное влияние на всю отрасль морского транспорта, и уже пять лет спустя все использовали карты Метью Мори. В мировом масштабе это приносило 10 миллионов долларов в год дополнительного дохода.

Эта историю я нашел в одном из обучающих видеороликов о программе Disco Fluxicon и она понравилась мне тем, что есть сходство в истории Мэтью Мори и в исследовании процессов (Process Mining).

Process Mining – краткое описание.

Итак, после знакомства с историей Мэтью Мори, мы можем сказать, что исследование процессов – это некое семейство методов в области управления процессами, которые  обеспечивают анализ бизнес-процессов на основе журналов событий (events log). В процессе интеллектуального анализа данных, к данным журнала событий (events log) применяются специализированные алгоритмы интеллектуального анализа данных, чтобы идентифицировать тренды, шаблоны и детали, содержащиеся в журналах событий, записанных информационной системой. Целью интеллектуального анализа данных журнала событий является лучшее понимание процессов и, как следствие, повышение их эффективности.

По данным исследователей из Технологического университета Эйндховена, исследование процессов возникло, как научная дисциплина в 1990 году. На сегодняшний день существует более 100 алгоритмов интеллектуального анализа процессов, способных обнаруживать модели процессов.

Опыт знакомства с Process Mining.

Моё знакомство с Process Mining состоялось в декабре 2019, когда я, в составе команды, принял участие в соревновании. Данные для соревнования ранее использовались в конкурсе BPIC’2017  и представляли собой два лога бизнес-процесса, связанных между собой ключевыми полями. В ходе конкурса мы должны были решить ряд задач:

  • Выявить и устранить аномалии сбора данных в логах;
  • Построить и проинтерпретировать  модель процесса;
  • Выявить аномалии процесса;
  • Применить альтернативные (экспертные) подходы к анализу процесса;
  • Сформулировать обоснованные предложения по улучшению процесса.

В своей работе мы использовали следующее программное обеспечение: PM4PY, ProM, Disco Fluxicon и MS SQL.

Мы загрузили журналы событий в Disco Fluxicon, определили параметры майнинга и получили карту реального процесса:

Выглядел он сначала довольно запутанно, но после регулировки уровней активностей и связей мы получили читаемую карту процесса, которую уже можно было анализировать.

Состояния, выделенные глубоким синим цветом, происходят чаще. На ребрах соединяющих состояния мы можем увидеть количество кейсов. Манипулируя метриками в нижнем правом углу экрана, получаем полезную информацию о длительности и частоте кейсов и активностей. А также можем оценить процесс с точки зрения производительности и затрат времени. Далее мы использовали инструменты статистики, для оценки различных кейсов, активностей и ресурсов. Например, на нижеприведенном рисунке мы можем увидеть хвост (выброс) по длительности процесса – самое длительное рассмотрение заявки клиента составило 286 дней:

Возник закономерный вопрос – в чём причина? И вот мы анализируем детали кейса:

Мы предположили, что проблема состоит в некачественной информации подаваемой клиентом. Что бы прояснить ситуацию мы снова обращаемся к карте процесса:

После наложения фильтров, мы проанализировали процессы этих кейсов изолированно. Сделали гипотезу о том, что проблема состоит в недостаточном информировании клиентов о пакете документов, необходимых для предоставления услуги и сложностях в процессах повторной проверки. После этого можно было подумать о способах улучшения процесса приема и обработки документов от клиентов.

Таким образом, был получен пакет обоснованных предложений по улучшению процесса.

В ходе соревнования мы получили базовые навыки извлечения полезной информации из логов, познакомились с программным обеспечением, которое используется для анализа процессов.

Для меня это была абсолютно новая тема, и на первом этапе, мне очень сильно помог курс на онлайн платформе Coursera «Process Mining: наука о данных в действии» от Технического университета Эйндховена (Нидерланды). Благодаря конкретным наборам данных и простому в использовании программному обеспечению, курс предоставляет знания по науке о данных, которые могут применяться непосредственно для анализа и улучшения процессов в различных областях, объясняет основные методы анализа в процессе майнинга. Я рекомендую этот курс всем новичкам.

Вторым важным аспектом моего обучения была практика. Я брал тренировочные наборы данных предоставляемые поставщиками ПО и пробовал построить первые графы процессов. Это было очень важно для лучшего понимания техники исследования процессов.

Третий компонент, который мне помог – это команда единомышленников. Найдите тех, кто разделяет ваши интересы, и в команде вы будете расти быстрее.

Обзор программного обеспечения для Process Mining.

В предыдущем абзаце я упоминал инструменты для разработки процессов, которые мы использовали в соревновании:

  • PM4Py – библиотека Python для майнинга процессов (open source);
  • ProM – настольное приложение для майнинга процессов (open source);
  • Disco – это законченное программное обеспечение Process Mining от Fluxicon (commercial vendors).

Это наиболее популярные, на мой взгляд, программные продукты для исследования процессов (Process Mining), с точки зрения баланса функциональности и стоимости. В то же время, у нас есть возможность выбора инструментария. В настоящий момент, доступны несколько инструментов для разработки процессов с открытым исходным кодом: Apromore, bupaR, MicroPM4Py, PMLAB. И многочисленные коммерческие поставщики предлагают свои продукты для майнинга процессов: ARIS Process Mining, BIP Process Mining Tool, Celonis Process Mining, EverFlow Process Mining, Interstage Automated Process Discovery, Lab1 Process Discovery и People Analytics, LANA Process Mining, Logpickr Process Mining, Mavim, Minit, myInvenio, PAFnow Process Mining, Perceptive Process Mining, Process Diamond, UiPath Process Gold, Proceset, QPR ProcessAnalyzer, Signavio Process Intelligence, SNP Business Process Analysis,  StereoLOGIC, ABBYY Timeline, UpFlux. Таким образом, в выборе инструментария мы ограничены собственными предпочтениями и бюджетом…

Disco Fluxicon.

Участвуя в соревновании, я много работал с программой Disco Fluxicon, поэтому я хотел бы дополнительно обратить ваше внимание на этот инструмент для исследования процессов. Название программы Disco  является сокращением от фразы Discovery your processes – «Открой для себя свои процессы». Революционная технология разработки процессов в Disco помогает создавать прекрасные визуальные карты на основе «сырых» данных процесса за считанные минуты. Программа позволяет оптимизировать эффективность процессов, контролировать отклонения или изучать различные варианты треков процесса.

Программа предлагает следующий функционал:

·       Автоматическое обнаружение процессов из «сырых» данных;

·       Анимация карты процесса (статический процесс «оживает»);

·       Подробная статистика в удобной наглядной форме;

·       Подробная детализация, вплоть до отдельных кейсов;

·       Удобный инструментарий для фильтрации кейсов;

·       Импорт и экспорт (программа работает как с .csv, .xlsx так и со стандартным форматом для обмена логами .xes);

·       Интуитивное управление проектами.

Несмотря на то, что это коммерческая разработка, команда поддержки предоставила лицензии (для образовательных целей) без ограничений по объему импорта данных. Более того, нам была предоставлена персональная онлайн лекция, на которой участники команды Fluxicon научили меня базовым приемам фильтрации в программе Disco. Это один из базовых навыков, который позволяет легко очистить данные процесса и сфокусировать анализ на проблемных точках.

И сама программа Disco и команда технической поддержки оставили у меня очень приятное впечатление.

Напоследок, я хочу высказать свое мнение о технологии исследования процессов (Process Mining). Process Mining – это не серебряная пуля или некое магическое заклинание, которое обнаружит и исправит все наши проблемы в процессах. Это всего лишь дополнительный инструмент, который расширяет наши возможности при аудите банковских процессов. Эффект может быть достигнут только в случае совместного применения интеллектуального анализа процессов (Process Mining) с традиционным анализом процессов (экспертный уровень) и методами анализа, ориентированного на данные, такими как машинное обучение и анализ данных. Результат будет напрямую зависеть от приложенных усилий.