Лайфхаки в аудите

Основы анализа данных в Jupyter\Pandas

Время прочтения: 5 мин.

Важность правильного анализа данных для аудитора сложно переоценить. Данные дают аудитору всевозможные инсайты и закономерности той предметной области, где он работает. И, в 2019-ом году, могучего инструмента Excel часто не хватает.

В июне наше сообщество опубликовало статью «Jupyter — новый Excel». В ней говорилось о преимуществах среды Jupyter Notebook для разработки на языке python и предлагалось «научиться» обрабатывать данные на ней, но не давалось никаких ссылок или пособий.

Желая исправить это, мы начинаем публикацию серии статей о самых основах анализа данных на языке python. Но не бойтесь! В этих статьях, написанных специально для пользователей Excel, будет минимум сложных терминов и действий. Мы пробежимся по основам, объясняя и показывая всё необходимое, а также будем приводить ссылки на продвинутый материал для любопытных и интересующихся. В итоге, Вы познакомитесь с основными инструментами аналитика в Jupyter Notebook, и (возможно) никогда не вернётесь к Excel.

И начнём мы с установки среды разработки для языка python, Jupyter Lab. Для этого Вам понадобится персональный компьютер или ноутбук (со смартфона много не запрограммируешь) и 15 минут времени.

Первым делом необходимо установить на компьютер дистрибутив языка python. Для анализа данных лучше всего работает дистрибутив Anaconda. Скачать его можно, перейдя по ссылке. На странице (см. рисунок) необходимо выбрать свою операционную систему (скорее всего, это Windows) и нажать кнопку Download.

Начнётся скачивание — дистрибутив содержит в себе огромное множество библиотек на каждый случай в жизни.

Когда скачивание завершится, переходим к установке. Запускаем скаченный файл, и следуем инструкции (Next — следующее окно настроек, Install — кнопка перед установкой).

В каждом окне стоят стандартные настройки установки (никаких вирусов или лишних программ Вы не установите), и единственное место, которое не стоит по умолчанию, выделено красной рамкой (галочку надо поставить самостоятельно).

Установка займёт некоторое время.

После установки мы будем запускать Jupyter Lab — среду разработки python, включающую в себя jupyter notebook и обладающую многими достоинствами.

Для запуска найдите в меню пуск (вручную или с помощью строки поиска) Jupyter Lab — он хранится в папке Anaconda 3.

После запуска сначала запустится командная строка: это запускается сервер Jupyter Notebook.

Затем откроется браузер и мы увидим окно примерно следующего содержания:

Поздравляем! Вы завершили установку отличной IDE для работы с языком python. Для подробного изучения дистрибутива Anaconda (состав и возможности) предлагаем Вам ознакомиться с официальной документацией и сайтом проекта (понадобится знание английского языка).

А теперь давайте немного познакомимся с библиотекой Pandas. Панды тут не причём, название происходит от английского panel data (панельные данные, эконометрический термин для описания многомерных структур данных). Это могущественная библиотека для обработки и анализа данных, основанная на низкоуровневой библиотеке NumPy, которая помимо стандартных возможностей Excel предоставляет возможность применять векторные операции над данными (что работает значительно быстрее стандартных циклов).

Начнём с создания нового блокнота Jupyter. Нажимаем на иконку Python 3 (современная версия языка python) и наблюдаем следующую картину (папки слева будут из Вашей операционной системы):

Итак, мы видим основной интерфейс блокнота Jupyter, в котором и будет происходить вся магия. Прежде всего, необходимо подключить библиотеку в текущий блокнот.

Это можно сделать командой

import pandas as pd

После того, как Вы вставили код в ячейку, её необходимо запустить с помощью сочетания клавиш shift+enter. Затем мы прямо в блокнот скачаем и посмотрим на датасет, содержащий данные восьми характеристик 400 моделей автомобилей. Для этого необходимо во вторую ячейку вставить и запустить следующий код:

df = pd.read_csv(‘https://perso.telecom-paristech.fr/eagan/class/

/igr204/data/cars.csv’, sep=’;’, skiprows=[1])

df.head()

В результате выполнения двух ячеек должна получиться следующая картина:

Метод .head() выводит на экран верхние пять строчек загруженного датасета.

Что с этими данными можно сделать, мы расскажем в следующих статьях.

Спасибо за внимание!

Советуем почитать