Время прочтения: 3 мин.

«Существуют три вида лжи: ложь, наглая ложь и статистика»

Марк Твен

Сегодня 90% решений принимается на основе визуальных отчетов/презентаций и т.д. Вот тут на помощь и приходит познавательная статистика.

Начнем с самого простого примера, если наша задача состоит показать сравнительный анализ, предположим компаний А и Б по объему выручки.

Строим гистограмму:

Левый рисунок отражает самое простое построение и можно сказать: выручка компании Б больше в 2 раза чем у компании А, все верно, а теперь допустим, нам надо преподнести выручку компании Б в более выгодном свете, не в 2 раза больше, а в 3 и более. Для этого необходимо визуально «вытянуть» график и начинать ось не с 0, а допустим с 40. Готово! Большинство людей не смотрит на цифры, а смотрит красивую картинку.

Далее рассмотрим еще один графический пример в динамике.

Теперь нам надо проанализировать выручку за 4 года, рисуем график (левый) и получаем «вялую» линию. На первый взгляд есть рост, всё хорошо, но невыраженный. Тогда на помощь приходит ось не с 0 и масштабируемость. Теперь — яркий рост и все довольны, при этом цифры везде одинаковые.

Ещё один из приемов — ложная корреляция.

Возьмем актуальный на сегодняшний день пример: рост объема продаж туалетной бумаги коррелирует с количеством зараженных Covid-19. Сразу стоит кричать во весь мир: «Люди!! Остановитесь! Туалетная бумага губит мир!!».

Ложные корреляции встречаются повсеместно, даже там, где этого не делали с корыстной целью. Статистика не описывает причинно-следственных связей, поэтому, зачастую, корреляция является лишь плодом воображения, введением в заблуждение, ложной иллюзией наличия этой самой связи. Каждый раз видя два одинаково идущих графика, спрашивайте себя: «а может существует третий параметр, от которого зависят эти?» и тогда туалетная бумага, из нашего примера, останется в безопасности.

Настало время поделиться поистине «убийственным» инструментом маркетологов, который повсеместно используется. Парадокс Симпсона — эффект, явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.

Разберем ещё один пример: в экспериментальном тесте принимали участие 1710 мужчин и 900 женщин, с одним заболеванием, далее разбили группы, одни принимают лекарство, а другие плацебо (вещество без явных лечебных свойств, используемый для имитации лекарственного средства в исследованиях).

Лекарство Плацебо
Мужчины 1500 210
Женщины 220 680
Всего 1720 890

После курса лекарств, выходит интересный результат выздоровления пациентов:

Из всей людей, выздоровело 700 мужчин и 150 женщин принимавшие лекарство и 80 мужчин и 400 женщин, лечившихся плацебо. Смотрим долю (%) и видим для женщин и мужчин лекарство эффективное и стоит выпускать в массы, но не стоит спешить, если смотреть группу в целом (мужчин и женщин), то получаем противоположный результат. Теперь большая доля на стороне плацебо и получается, что лучше не принимать лекарство. Одним из решений данной проблемы является категорирование. При помощи данного парадокса можно «умело» трактовать данные в свою пользу.

Для аудита очень важно выявлять фиктивную статистику и изобличать ее, распознавать обман и фальсификацию данных, для этого нужно задать несколько вопросов: Откуда данные?  Кто заинтересован? Чего не хватает? В этом есть смысл?