Power Bi, Визуализация

Мониторинг распространения коронавирусной инфекции в регионах России с помощью PowerBI

Время прочтения: 4 мин.

После начала распространения коронавирусной инфекции возникла задача ежедневного мониторинга ситуации в субъектах России в целом и регионах Поволжского федерального округа. На сайте яндекс ведется мониторинг ситуации по регионам и сначала использовались в представленном виде по определенным регионам. Для снижения трудозатрат под собственные потребности был разработан отчет на PowerBI, в котором кроме основной информации об эпидемической ситуации были добавлены трендовые графики и рассчитаны дополнительные метрики.

Данные для построения отчета получены с yandex.datalens в виде Excel файла и импортированы в отчет PowerBI. В отчете построены графики с динамикой состояний по заражениям, выздоровлениям и летальным случаям, приведены оперативные данные, а также добавлен фильтр по субъектам России и по округам, чтобы можно было проследить динамику по конкретному региону или округу.

Для мониторинга тенденции распространения заболеваний и сглаживания числового ряда, с помощью функций DAX рассчитаны скользящие средние значения с периодами 7 и 28 дней, которые, по наблюдениям, наиболее близко описывают динамику недельного и месячного периода соответственно.

Можно отметить, что когда график заражений будет пересекать графики скользящих средних сверху вниз, то это означает уменьшение количества суточных заражений и возникновение понижательной тенденции. Если к графикам заражений добавить графики выздоровлений и смертей, то ситуация с эпидемиологической обстановкой выглядит наиболее полно. Например, на графике можно заметить, что в России пик заражений пришелся на 24.12.2020, а с 29.12.2020 началось снижение заболеваний. Если разбить распространение коронавирусной инфекции на волны, то можно отметить, что начало второй волны приходится на 26.08.2020, когда было зафиксировано минимальное значение и произошло пересечение 7-ми и 28-ми дневной скользящих средней.

Скользящее средние значение с периодом 28 дней в power bi рассчитывался с следующему алгоритму:

1) просуммируем суточные заболевания total_Z_day = SUM(‘dataset'[Заболевания за день])

2) рассчитаем скользящее среднее значение:

ma28 = AVERAGEX(DATESINPERIOD('dataset'[Дата], LASTDATE('dataset'[Дата]),-28,DAY),'dataset' [total_Z_day])

Мониторинг ситуации можно дополнить вспомогательным графиком по активным, т.е. гражданам, болеющим в настоящее время. На полученном графике провести линию тренда и также добавить скользящее значение с периодом 28 дней.

Активные, тыс.чел = (dataset [Заражений]-dataset[Выздоровлений]- dataset[Смертей])/1000 В отчете power bi используется коэффициент распространения коронавируса (Rt). Rt показывает среднее количество людей, который инфицирует один больной до его изоляции. Наряду с другими критериями коэффициент используется для определения готовности регионов к поэтапному снятию ограничительных мер. Rt рассчитывается как число зарегистрированных больных за последние четыре дня, деленное на число зарегистрированных больных за предыдущие четыре дня. Если Rt>1, то скорость распространения инфекции возрастает. В power bi Rt можно вычислить с помощью следующей DAX-функции:

Rt = 
var last_Date = LASTDATE('dataset'[Дата])
var before_last_Date = PREVIOUSDAY(last_Date)
var last_Date_4 = DATEADD(last_Date,-3,DAY)
var last_Date_8 = DATEADD(last_Date_4,-4,DAY)
var Q4 = CALCULATE(SUMX('dataset','dataset'[Заболевания за день]),DATESBETWEEN('dataset'[Дата],last_Date_4, last_Date))
var Q8 = CALCULATE(SUMX('dataset','dataset'[Заболевания за день]),DATESBETWEEN('dataset'[Дата],last_Date_8, last_Date))
return DIVIDE(Q4,(Q8-Q4),0)

Анализируя данные на графиках отчета PowerBI можно заметить следующие факты:

1) максимальное значение Rt = 1,24 приходится на начало октября 2020, а с января по март 2021 Rt находился ниже 1;

2) с января 2021 снижается количество болеющим гражданам (активные)

3) с января 2021 соотношение суточных выздоровлений к суточным заболеваниям превышает 1, что свидетельствует о преобладании выздоровлений; — наибольшее количество заболевших и выздоровевших в Центральном федеральном округе;

4) среди регионов Поволжского федерально округа наиболее сложная эпидемическая обстановка наблюдается в Нижегородской, Самарской и Саратовской областях;

5) наблюдается временной лаг в 10-14 дней по заболеваниям между наиболее и наименее населенными округами.

Таким образом, в отчете PowerBI с помощью функций DAX можно рассчитать трендовые показатели, которые будут демонстрировать динамику. Например, отчет PowerBi для ежедневного мониторинга распространения коронавирусной инфекции можно представить в следующей информационной панели:

Советуем почитать