Process mining, Анализ процессов

Как мы участвовали в BPIC 2020

Время прочтения: 4 мин.

         Одной из главных проблем в рамках данного соревнования являлось отсутствие явного описания предоставленных данных.

Для решения данной проблемы, на первом этапе решения поставленных задач, было решено составить карту данных. В дальнейшем это позволило бы решить, как можно объединять таблицы, как записи в одних таблицах влияют на записи в других. Кроме того, такая карта дает комплексное понимание бизнес-процесса. Это важно иметь перед тем, как давать какие-либо рекомендации.

Для решения поставленной задачи использовался jupyter notebook и draw.io. В jupyter был составлен список названий столбцов для каждой таблицы, были обозначены пересечения множеств названий столбцов попарно для каждого лога, а также были найдены коэффициенты корреляции для переменных.

В результате была сформирована карта данных, показанная на Рисунке 1.

Рисунок имеет следующую легенду: основные атрибуты трейсов процессов (зел.); принадлежность организационным признакам (голуб.); финансовые признаки (жел.). Прочие цвета для отношений к внешнему ивент логу. Все атрибуты организованы друг напротив друга.

Рисунок 1- карта данных

После того, как было сформировано понимание данных и процесса, можно было приступать к ответу на поставленные вопросы.

Всего было выделено 6 категорий вопросов. Таблицу соответствия вопросов определённой категории можно увидеть на Рисунке 2.

В соответствии с разделением списка вопросов по группам, каждый участник команды взял в работу одну или две группы вопросов.

Рисунок 2 – Таблица распределения вопросов по категориям

Для ответов на вопросы из категории «Время обработки», был проведен математический анализ предоставленных логов. Для каждого вопроса были составлен список наиболее популярных маршрутов для кейсов. Затем для каждого такого маршрута были найдены средние, медианы, минимумы, максимумы и отклонения. Данные статистические показатели помогли дать первоначальную оценку логов с точки зрения вопросов из категории «Время обработки».

Для оценки проходимости различных этапов бизнес-процесса, были применены методы для анализа временных рядов.

Пример такого анализа можно увидеть на Рисунке 3.

В результате анализа была выявленная только недельная сезонность, ряды получились стабильными и было предложено использовать техники прогнозирования, построенные на полученных статистических данных.

Рисунок 3 – Анализ временных рядов

         Для проведения кластерного анализа были использованы техники t-SNE и DBSAN. В результате удалось выделить только 2 самых распространенных типа процесса – в International и Domestic Declarations соответственно. Были получены графы найденных процессов.

         Анализ узких мест был проведен по методологии, описанной компанией Fluxcion. Для каждого лога были отфильтрованы кейсы, которые занимали больше времени, чем медианное значение для данного лога. После этого определялись процессы, которые оказывали наибольшее влияние на длительность данного маршрута. Причем учитывалось медианное время для таких процессов, так как среднее чувствительно к выбросам.

Результатом анализа был граф, на котором подсвечивались кейсы или переходы между ними, увеличивающие длительность прохождения заявки по процессу, а также рекомендации по устранению таких задержек.

Пример такого графа представлен на рисунке 4.

Для анализа вопроса о повторной подаче заявок также был использован инструмент Disco. С помощью настройки необходимых фильтров удавалось выделять только те процессы, которые несколько раз проходили этапы подачи заявки. После выделения таких кейсов находилось процентное отношения найденных кейсов к общему числу. Если подсчитанный процент являлся значимым, то на основе полученной информации выдавались рекомендации по избеганию подобных ситуаций дублирования подачи заявок в будущем.

Рисунок 4 – Пример полученного графа

В ходе анализа логов и выделения статистических данных были применены различные подходы и различные инструменты анализа, в том числе Einstein Analytics. Данный инструмент применялся для анализа кейсов относительно их принадлежности к тому или иному кластеру, а именно:

  • Принадлежность к бюджету;
  • Принадлежность к департаменту;
  • Размер бюджета.

В результате проведенного анализа были получены круговые диаграммы, гистограммы распределения числовых показателей кейсов.

Пример такого аналитического графика представлен на Рисунке 5.

Рисунок 5 – Пример аналитических графиков

     В результате проведенной работы был составлен отчет объемом 26 страниц. В ходе написания этого отчета участники получили большой практический опыт работы с техническими журналами бизнес-процессов, практического использования pm4py, а также опыт использования сторонних программ для аналитики бизнес-процессов.

Был сформирован универсальный план действий работы в соревнованиях такого рода, что позволит сэкономить время как при участии в соревнованиях, так и при применении полученных знаниях в практической деятельности.

Советуем почитать