Python Pandas
Картинка анонса

Что такое Spark и с чем его едят?

Статья больше рассчитана для новичков, кто впервые сталкивается со Spark. Сейчас кол-во информации растет, и требуются ресурсы и время для ее обработки. В связи с этим на свет появляться модель MapReduce, которая параллельно вычисляет операции на кластерах.
MapReduce отлично упрощает анализ big data на больших, но ненадежных кластерах. Стоит отметить, что с ростом популярности фреймворка пользователи хотят большего.

Python Pandas
Картинка анонса

Что такое Spark и с чем его едят?

Статья больше рассчитана для новичков, кто впервые сталкивается со Spark. Сейчас кол-во информации растет, и требуются ресурсы и время для ее обработки. В связи с этим на свет появляться модель MapReduce, которая параллельно вычисляет операции на кластерах.
MapReduce отлично упрощает анализ big data на больших, но ненадежных кластерах. Стоит отметить, что с ростом популярности фреймворка пользователи хотят большего.

Process mining Pandas
Картинка анонса

Как составить «Слово процесса»

Что первое приходит в голову, когда вы слышите о «Process mining»? Я приставляю граф процесса, состоящий из n вершин и m ребер. Для чего он нужен? думаю все и так знаю, он помогает анализировать переходы между активностями. Все это замечательно, когда активностей и переходов мало.

Python Pandas
Картинка анонса

Pandas Groupby: Summarising, Aggregating, and Grouping data in Python

Статья про агрегацию и группировку данных с помощью pandas. В ней рассказываются особенности работы с данными:
— какие существуют агрегирующие функции
— как сделать собственную агрегирующую функцию
— как сделать результат группировки в виде фрейма
и другое.
Статья будет полезна для начинающих работать c Python и Pandas

Python Pandas
Картинка анонса

Ускоряем Pandas при помощи модуля modin

Многим из нас знакома фраза «нет предела совершенству». В каком-то роде, python-модуль pandas можно назвать идеальным инструментом для работы с данными. Но мы попытаемся разобраться, как можно сделать это ещё более эффективно в разрезе быстродействия при использовании другого модуля modin.

Автоматизация Pandas
Картинка анонса

Создание информативных и красивых Excel документов. XlsxWriter и Pandas

Мы постоянно работаем с excel файлами, когда выгружаем данные.
Если выгрузка является единичной — можно обойтись без применения программных средств для форматирования ячеек. Однако в иных случаях будет практичнее разобраться, каким образом автоматизировать процесс форматирования.

Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas: separa et impera

Как используя модуль pandas языка python можно делать пакетную (фрагментарную) обработку данных

Анализ данных Pandas
Картинка анонса

Лечим проблемы с памятью у Pandas

Современный мир уже нельзя представить без огромных data-центров и суперкомпьютеров, которые обрабатывают колоссальные объёмы информации. Иногда владельцы такого оборудования предоставляют возможность его использовать рядовым специалистам для проведения расчётов. Но что делать, если возможность работы с такими ресурсами отсутствует, а для проведения аудиторской проверки и исследования необходимо обработать объём информации, который не помещается в оперативной памяти компьютера? В этой статье мы поделимся опытом, как используя модуль pandas можно оптимизировать объём исследуемого датасета путём преобразования типов данных

Загрузить ещё