Саморазвитие Machine Learning
Картинка анонса

Опыт участия в DS-соревновании

Статья о DS соревновании на российской площадке boosters.pro. Автор расскажет о своем опыте участия в соревновании, как ему удалось войти в ТОП-50, опишет некоторые этапы размышлений и действий по ходу решения.

Саморазвитие Machine Learning
Картинка анонса

Опыт участия в DS-соревновании

Статья о DS соревновании на российской площадке boosters.pro. Автор расскажет о своем опыте участия в соревновании, как ему удалось войти в ТОП-50, опишет некоторые этапы размышлений и действий по ходу решения.

Python Pandas
Картинка анонса

Ускоряем Pandas при помощи модуля modin

Многим из нас знакома фраза «нет предела совершенству». В каком-то роде, python-модуль pandas можно назвать идеальным инструментом для работы с данными. Но мы попытаемся разобраться, как можно сделать это ещё более эффективно в разрезе быстродействия при использовании другого модуля modin.

Автоматизация Pandas
Картинка анонса

Создание информативных и красивых Excel документов. XlsxWriter и Pandas

Мы постоянно работаем с excel файлами, когда выгружаем данные.
Если выгрузка является единичной — можно обойтись без применения программных средств для форматирования ячеек. Однако в иных случаях будет практичнее разобраться, каким образом автоматизировать процесс форматирования.

Обработка документов Анализ данных
Картинка анонса

«Расстояние Левенштейна» для анализа данных в модели

Рассмотрим стандартную ситуацию, когда аудитору для проверки гипотезы о некорректности заполнения данных в модели необходимо отобрать из огромного массива данных номера договоров, в которых, возможно, допущена ошибка при наполнении данными модель. В данной статье рассмотрим как можно использовать расстояние Левенштейна для анализа данных в модели.

Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

SQL Pandas
Картинка анонса

Объединение таблиц в Pandas: merge, join и concatenate

В ходе решения DA-задачи, первое, что, в большинстве случаев, необходимо выполнить – объединить множество табличных данных в большой датафрейм. Это едва ли не основной процесс, с которого начинается анализ данных и задачи машинного обучения. Зачастую данные представляют собой разрозненные файлы или данные из нескольких источников, поэтому, скорее всего, потребуется собрать всё в один датафрейм, используя некоторую логику объединения, а уже затем начать анализ.

Анализ данных Pandas
Картинка анонса

Интересные трюки pandas

Для начала, выберем себе «подопытного кролика». Им станет набор данных, расположенный по ссылке. Не будем утруждать себя переходом на сайт и скачиванием документа. Считаем его прямо в коде программы по url: В представленной выше таблице собраны данные о том, какой размер чаевых оставляют люди в зависимости от дня недели, итогового счёта, пола, времени приёма пищи […]

Загрузить ещё