Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

SQL Pandas
Картинка анонса

Объединение таблиц в Pandas: merge, join и concatenate

В ходе решения DA-задачи, первое, что, в большинстве случаев, необходимо выполнить – объединить множество табличных данных в большой датафрейм. Это едва ли не основной процесс, с которого начинается анализ данных и задачи машинного обучения. Зачастую данные представляют собой разрозненные файлы или данные из нескольких источников, поэтому, скорее всего, потребуется собрать всё в один датафрейм, используя некоторую логику объединения, а уже затем начать анализ.

Анализ данных Pandas
Картинка анонса

Интересные трюки pandas

Для начала, выберем себе «подопытного кролика». Им станет набор данных, расположенный по ссылке. Не будем утруждать себя переходом на сайт и скачиванием документа. Считаем его прямо в коде программы по url: В представленной выше таблице собраны данные о том, какой размер чаевых оставляют люди в зависимости от дня недели, итогового счёта, пола, времени приёма пищи […]

Анализ данных Pandas
Картинка анонса

Pandas-Profiling — способ упростить жизнь аналитика данных

Один из самых важных элементов работы с данными – их понимание, изучение и первичный анализ.

Анализ данных Pandas
Картинка анонса

SQL и PANDAS

Если у Вас имеется опыт работы с SQL и Вы начали изучать Python, то этот небольшой лайфак покажет аналогию некоторых операций SQL, которые можно реализовать в Python с помощью библиотеки Pandas.

Кластеризация Анализ данных
Картинка анонса

Кластеризация данных на примере метода к-средних

Кластеризация — подзадача Data Mining, которая группирует множество объектов на подмножество таким образом, чтобы объекты одного кластера были максимально похожи друг на друга, а объекты из разных кластеров имели максимальное количество отличных друг от друга критериев. Так в сфере аудита, кластеризация поможет определить выпадение транзакций определенного типа.

Программирование Автоматизация
Картинка анонса

Deedle как альтернатива pandas под C#

Обработка и анализ данных. Как с помощью библиотеки Deedle получить результат аналогичный использованию метода Pandas в Python?