Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

SQL Pandas
Картинка анонса

Объединение таблиц в Pandas: merge, join и concatenate

В ходе решения DA-задачи, первое, что, в большинстве случаев, необходимо выполнить – объединить множество табличных данных в большой датафрейм. Это едва ли не основной процесс, с которого начинается анализ данных и задачи машинного обучения. Зачастую данные представляют собой разрозненные файлы или данные из нескольких источников, поэтому, скорее всего, потребуется собрать всё в один датафрейм, используя некоторую логику объединения, а уже затем начать анализ.

Анализ данных Pandas
Картинка анонса

Коллаборативная фильтрация на основе соседства с помощью языка Python

Коллаборативная фильтрация – это самый простой способ для построения рекомендаций или прогнозов в рекомендательных системах. Основное предположение заключается в том, что люди, дающие одинаковые оценки предметам или выбирающие одинаковые вещи, в будущем также будут вести себя похоже. С помощью коллаборативной фильтрации можно рекомендовать книги, на основе уже прочитанных, похожими людьми или продвигать услуги. Попробуем сравнить несколько объектов, используя язык Python.

Анализ данных Pandas
Картинка анонса

FuzzyWuzzy или нечёткое сравнение «грязных» pandas столбцов на основании расстояния Левенштейна

В этой статье расскажем, как использовать Python-пакет FuzzyWuzzy для сопоставления двух столбцов Pandas в DataFrame на основе сходства текста. Проще говоря, нечёткий поиск по столбцам

Анализ данных Pandas
Картинка анонса

Интересные трюки pandas

Для начала, выберем себе «подопытного кролика». Им станет набор данных, расположенный по ссылке. Не будем утруждать себя переходом на сайт и скачиванием документа. Считаем его прямо в коде программы по url: В представленной выше таблице собраны данные о том, какой размер чаевых оставляют люди в зависимости от дня недели, итогового счёта, пола, времени приёма пищи […]

Анализ данных Pandas
Картинка анонса

Pandas-Profiling — способ упростить жизнь аналитика данных

Один из самых важных элементов работы с данными – их понимание, изучение и первичный анализ.

Анализ данных Pandas
Картинка анонса

И снова обработка CSV файлов

О том, как читать и разбирать CSV-файлы различными методами (с помощью языков C#, Python, средствами MS Excel или MS SQL Server) написано и сказано достаточно, но мне хотелось бы поделиться личным опытом обработки больших объёмов в формате CSV.

Загрузить ещё