Как свернуть горы партиций с помощью PySpark

Советуем почитать

Обработка больших данных при помощи библиотеки .NET for Apache Spark

Функции и процедуры в Greenplum

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Использование функции DATETRUNC() в SQL

Как свернуть горы партиций с помощью PySpark

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

27.03.2023, Попов Иван, г. Иркутск

Как свернуть горы партиций с помощью PySpark

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов.

Databases and big data Другие технологии

Превью для статьи

19.05.2021, Абрашкина Анна, г. Самара

Реализация алгоритма 6 sigm для Рrocess Мining.

При исследовании процесса методами Process Mining одним из важнейших методов оценки процесса является концепция 6 sigm. В этой статье я хочу рассказать об одном из возможных вариантов реализации этого алгоритма на языке python. Ставим задачу: «Необходимо получить идентификаторы событий, которые выходят за рамки 6 sigm процесса». Для решения поставленной задачи необходимо рассчитать несколько величин на […]

Process mining Технологии аудита

Превью для статьи

19.01.2021, Стуколов Андрей, г. Самара

Дробление потоков загрузки

Как равномерно распределить потоки при загрузке данных?Если в наличии имеется отсортированный ID, то это решается довольно просто: путем деления количества строк на число потоков. А если такого ID нет? Приведен пример решения данной задачи, используя для разбиения на потоки поле с датой и временем и посмотрим, что получилось…

Data manipulation Другие технологии

Превью для статьи

14.01.2021, Евгений Игумнов, Максим Милованов, г. Новосибирск

Категоризация документов с помощью LDA в библиотеке genism

Когда в процессе работы накапливается множество различных документов и нет времени на их сортировку или поступают обращения от клиентов и никак не структурируются, рано или поздно остро встаёт вопрос наведения порядка. Поиск какого-то одного документа или нескольких похожих становится затруднительным. Для более эффективной структуризации лучше всего подойдёт категоризация по темам. Среди различных отраслей и методов машинного обучения подходит тематическое моделирование. Рассмотрим один из методов тематического моделирования – скрытое размещение Дирихле, и реализуем его с помощью библиотеки gensim в Python.

Text mining Технологии аудита

16.10.2020, Евтушенко Александр, г. Хабаровск

Использование CROSS JOIN для задач поиска пересечений в исторических данных

С течением времени мы накапливаем петабайты данных, большая часть которых изменяется и устаревает, но не теряет свой ценности. В данной статье мы рассмотрим как эффективно использовать SQL для поиска пересечений по всем версиям наборов данных

Databases and big data Другие технологии