Превью для статьи

Как свернуть горы партиций с помощью PySpark

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов.

Превью для статьи

Реализация алгоритма 6 sigm для Рrocess Мining.

При исследовании процесса методами Process Mining одним из важнейших методов оценки процесса является концепция 6 sigm. В этой статье я хочу рассказать об одном из возможных вариантов реализации этого алгоритма на языке python. Ставим задачу: «Необходимо получить идентификаторы событий, которые выходят за рамки 6 sigm процесса». Для решения поставленной задачи необходимо рассчитать несколько величин на […]

Превью для статьи

Дробление потоков загрузки

Как равномерно распределить потоки при загрузке данных?Если в наличии имеется отсортированный ID, то это решается довольно просто: путем деления количества строк на число потоков. А если такого ID нет? Приведен пример решения данной задачи, используя для разбиения на потоки поле с датой и временем и посмотрим, что получилось…

Превью для статьи

Категоризация документов с помощью LDA в библиотеке genism

Когда в процессе работы накапливается множество различных документов и нет времени на их сортировку или поступают обращения от клиентов и никак не структурируются, рано или поздно остро встаёт вопрос наведения порядка. Поиск какого-то одного документа или нескольких похожих становится затруднительным. Для более эффективной структуризации лучше всего подойдёт категоризация по темам. Среди различных отраслей и методов машинного обучения подходит тематическое моделирование. Рассмотрим один из методов тематического моделирования – скрытое размещение Дирихле, и реализуем его с помощью библиотеки gensim в Python.

Превью для статьи

Использование CROSS JOIN для задач поиска пересечений в исторических данных

С течением времени мы накапливаем петабайты данных, большая часть которых изменяется и устаревает, но не теряет свой ценности. В данной статье мы рассмотрим как эффективно использовать SQL для поиска пересечений по всем версиям наборов данных