Автоматизация Pandas
Картинка анонса

Создание информативных и красивых Excel документов. XlsxWriter и Pandas

Мы постоянно работаем с excel файлами, когда выгружаем данные.
Если выгрузка является единичной — можно обойтись без применения программных средств для форматирования ячеек. Однако в иных случаях будет практичнее разобраться, каким образом автоматизировать процесс форматирования.

Автоматизация Pandas
Картинка анонса

Создание информативных и красивых Excel документов. XlsxWriter и Pandas

Мы постоянно работаем с excel файлами, когда выгружаем данные.
Если выгрузка является единичной — можно обойтись без применения программных средств для форматирования ячеек. Однако в иных случаях будет практичнее разобраться, каким образом автоматизировать процесс форматирования.

Обработка документов Анализ данных
Картинка анонса

«Расстояние Левенштейна» для анализа данных в модели

Рассмотрим стандартную ситуацию, когда аудитору для проверки гипотезы о некорректности заполнения данных в модели необходимо отобрать из огромного массива данных номера договоров, в которых, возможно, допущена ошибка при наполнении данными модель. В данной статье рассмотрим как можно использовать расстояние Левенштейна для анализа данных в модели.

Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

SQL Pandas
Картинка анонса

Объединение таблиц в Pandas: merge, join и concatenate

В ходе решения DA-задачи, первое, что, в большинстве случаев, необходимо выполнить – объединить множество табличных данных в большой датафрейм. Это едва ли не основной процесс, с которого начинается анализ данных и задачи машинного обучения. Зачастую данные представляют собой разрозненные файлы или данные из нескольких источников, поэтому, скорее всего, потребуется собрать всё в один датафрейм, используя некоторую логику объединения, а уже затем начать анализ.

Анализ данных Pandas
Картинка анонса

Интересные трюки pandas

Для начала, выберем себе «подопытного кролика». Им станет набор данных, расположенный по ссылке. Не будем утруждать себя переходом на сайт и скачиванием документа. Считаем его прямо в коде программы по url: В представленной выше таблице собраны данные о том, какой размер чаевых оставляют люди в зависимости от дня недели, итогового счёта, пола, времени приёма пищи […]

Анализ данных Pandas
Картинка анонса

Pandas-Profiling — способ упростить жизнь аналитика данных

Один из самых важных элементов работы с данными – их понимание, изучение и первичный анализ.

Анализ данных Pandas
Картинка анонса

SQL и PANDAS

Если у Вас имеется опыт работы с SQL и Вы начали изучать Python, то этот небольшой лайфак покажет аналогию некоторых операций SQL, которые можно реализовать в Python с помощью библиотеки Pandas.

Загрузить ещё