Превью для статьи

Мониторинг ресурсов Spark-приложений с помощью Python

Доброе утро, друзья!
Каждый пользователь создает нагрузку на кластер, и посмотреть параметры каждого работающего Spark-приложения возможно в представлении Resource manager UI через YARN.

Превью для статьи

Создание и удаление таблиц в Apache Hadoop c использованием PySpark

Сегодня я расскажу, как затратив минимум усилий при работе с большими данными, справиться с задачей создания таблиц с нужными параметрами, а также как удалить сразу большое количество потерявших актуальность таблиц

Превью для статьи

Spark Workflow

Рассмотрим, что происходит от старта до окончания работы Spark приложения

Превью для статьи

Параметрическая оптимизация задач Spark

Скорость обработки больших данных средствами фреймворка Apache Spark во мно-гом обеспечивается грамотной настройкой его параметров. Об этом мы и поговорим в данной статье

Превью для статьи

Обработка больших данных средствами PySpark SQL

Наиболее популярными инструментами для сбора и обработки больших данных являются Hadoop MapReduce и Apache Spark. Оба этих инструмента имеют свои плюсы и минусы, однако в данной статье я буду рассматривать Apache Spark, в частности библиотеку для python PySpark. Любая программа на PySpark начинается с определения конфигурации запускаемой задачи. В PySpark конфигурация задается классом SparkConf. Основными […]