Превью для статьи

Основы работы со Spark DataFrame

При работе с распределенными базами данных, возникают задачи, которые, ввиду технических ограничений, сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

Превью для статьи

Основы работы со Spark DataFrame

Если вы столкнулись с ограничениями при работе с распределенными БД, то следующий пост будет крайне полезен. Подробнее о основах Spark DataFrame

Превью для статьи

Koalas – Pandas для Spark.

Koalas – Python-библиотека, которая внедряет Pandas API поверх Apache Spark.
В сферах анализа данных, Pandas является библиотекой по умолчанию. Большинство специалистов по обработке данных начинают именно с Pandas и Numpy, а затем, при необходимости, переходят на другие библиотеки.
Pandas отлично подходит для анализа малого количества данных. При столкновении же с большими наборами данных не обойтись без использования Spark.

Превью для статьи

Spark Workflow

Рассмотрим, что происходит от старта до окончания работы Spark приложения

Превью для статьи

Что такое Spark и с чем его едят?

Статья больше рассчитана для новичков, кто впервые сталкивается со Spark. Сейчас кол-во информации растет, и требуются ресурсы и время для ее обработки. В связи с этим на свет появляться модель MapReduce, которая параллельно вычисляет операции на кластерах.
MapReduce отлично упрощает анализ big data на больших, но ненадежных кластерах. Стоит отметить, что с ростом популярности фреймворка пользователи хотят большего.

Data News