Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

ML на распределенных данных

При работе с большими данными часто используются алгоритмы ML. Так как большие данные хранятся в распределённых хранилищах, то для работы с ML, в классическом варианте, нужно сначала собрать все данные в одно место, а потом начать работу сними – это не всегда удобно. Но есть более интересный и удобный вариант – библиотека MLlib Apache Spark.

Превью для статьи

Инструкция к применению «Как установить PySpark на Windows и сделать в нём Word2Vec»

Мы говорим Big Data, подразумеваем — Apache Spark. Сейчас это, пожалуй, самый мощный и модный фреймворк для распределённой обработки больших данных в задачах Data Science, поэтому для всех аналитиков как никогда важна задача изучения Spark и получения практических навыков работы с ним. Однако привычная среда обитания Spark — это, как правило, серверные кластеры промышленного масштаба […]