Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

Сравнение различных способов редактирования Spark DataFrame

В данном посте разберём различные способы создания столбцов путем преобразования, вычислений, применения регулярных выражений и т.д. Также мы сравним длительность каждого способа и какой лучше где применить.

Превью для статьи

Основы работы со Spark DataFrame

Если вы столкнулись с ограничениями при работе с распределенными БД, то следующий пост будет крайне полезен. Подробнее о основах Spark DataFrame

Превью для статьи

ML на распределенных данных

При работе с большими данными часто используются алгоритмы ML. Так как большие данные хранятся в распределённых хранилищах, то для работы с ML, в классическом варианте, нужно сначала собрать все данные в одно место, а потом начать работу сними – это не всегда удобно. Но есть более интересный и удобный вариант – библиотека MLlib Apache Spark.

Превью для статьи

Spark Workflow

Рассмотрим, что происходит от старта до окончания работы Spark приложения

Превью для статьи

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Превью для статьи

Замена слов в текстовых последовательностях с помощью Python, используя модуль FlashText

Как заменять слова в текстовых последовательностях с помощью Python, используя модуль FlashText, который предоставляет собой один из наиболее эффективных способов замены большого набора слов в текстовом документе.