
Опыт участия в DS-соревновании
Статья о DS соревновании на российской площадке boosters.pro. Автор расскажет о своем опыте участия в соревновании, как ему удалось войти в ТОП-50, опишет некоторые этапы размышлений и действий по ходу решения.

Ускоряем Pandas при помощи модуля modin
Многим из нас знакома фраза «нет предела совершенству». В каком-то роде, python-модуль pandas можно назвать идеальным инструментом для работы с данными. Но мы попытаемся разобраться, как можно сделать это ещё более эффективно в разрезе быстродействия при использовании другого модуля modin.

Создание информативных и красивых Excel документов. XlsxWriter и Pandas
Мы постоянно работаем с excel файлами, когда выгружаем данные.
Если выгрузка является единичной — можно обойтись без применения программных средств для форматирования ячеек. Однако в иных случаях будет практичнее разобраться, каким образом автоматизировать процесс форматирования.

«Расстояние Левенштейна» для анализа данных в модели
Рассмотрим стандартную ситуацию, когда аудитору для проверки гипотезы о некорректности заполнения данных в модели необходимо отобрать из огромного массива данных номера договоров, в которых, возможно, допущена ошибка при наполнении данными модель. В данной статье рассмотрим как можно использовать расстояние Левенштейна для анализа данных в модели.

Лечим проблемы с памятью у Pandas
Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

Объединение таблиц в Pandas: merge, join и concatenate
В ходе решения DA-задачи, первое, что, в большинстве случаев, необходимо выполнить – объединить множество табличных данных в большой датафрейм. Это едва ли не основной процесс, с которого начинается анализ данных и задачи машинного обучения. Зачастую данные представляют собой разрозненные файлы или данные из нескольких источников, поэтому, скорее всего, потребуется собрать всё в один датафрейм, используя некоторую логику объединения, а уже затем начать анализ.

Интересные трюки pandas
Для начала, выберем себе «подопытного кролика». Им станет набор данных, расположенный по ссылке. Не будем утруждать себя переходом на сайт и скачиванием документа. Считаем его прямо в коде программы по url: В представленной выше таблице собраны данные о том, какой размер чаевых оставляют люди в зависимости от дня недели, итогового счёта, пола, времени приёма пищи […]