Превью для статьи

Немного о машинном обучении в PySpark

Все мы привыкли к python как к основному инструменту для машинного обучения, но иногда данных становится очень много и обычный рабочий компьютер уже не способен выполнять наши задачи. На помощь приходит PySpark. Он представляет из себя API для Apache Spark, который способен выполнять распределенную обработку больших данных. Сегодня ознакомимся с базовой частью машинного обучения в PySpark — с загрузкой, с предобработкой данных, обучением моделей, а также некоторыми особенностями данного инструмента.

Превью для статьи

Инструкция к применению «Как установить PySpark на Windows и сделать в нём Word2Vec»

Мы говорим Big Data, подразумеваем — Apache Spark. Сейчас это, пожалуй, самый мощный и модный фреймворк для распределённой обработки больших данных в задачах Data Science, поэтому для всех аналитиков как никогда важна задача изучения Spark и получения практических навыков работы с ним. Однако привычная среда обитания Spark — это, как правило, серверные кластеры промышленного масштаба […]

Превью для статьи

Параметрическая оптимизация задач Spark

Скорость обработки больших данных средствами фреймворка Apache Spark во мно-гом обеспечивается грамотной настройкой его параметров. Об этом мы и поговорим в данной статье

Data News