Превью для статьи

ML на распределенных данных

При работе с большими данными часто используются алгоритмы ML. Так как большие данные хранятся в распределённых хранилищах, то для работы с ML, в классическом варианте, нужно сначала собрать все данные в одно место, а потом начать работу сними – это не всегда удобно. Но есть более интересный и удобный вариант – библиотека MLlib Apache Spark.

Превью для статьи

Обработка больших данных средствами PySpark SQL

Наиболее популярными инструментами для сбора и обработки больших данных являются Hadoop MapReduce и Apache Spark. Оба этих инструмента имеют свои плюсы и минусы, однако в данной статье я буду рассматривать Apache Spark, в частности библиотеку для python PySpark. Любая программа на PySpark начинается с определения конфигурации запускаемой задачи. В PySpark конфигурация задается классом SparkConf. Основными […]