Превью для статьи

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Превью для статьи

Функции и процедуры в Greenplum

Сегодня расскажу, как я использовал функции и процедуры в Greenplum и как мне удалось существенно оптимизировать запрос с использованием функции.

Превью для статьи

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Всем привет! Ниже по ссылке один из методов автоматизации запуска SQL запросов в Apache Hadoop с помощью клиента Apache Beeline и командной оболочки Bash.

Превью для статьи

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Я люблю готовить, поэтому постоянно закупаюсь ингредиентами для различных блюд. В последний раз я закупил их слишком много, и срок годности подходит к концу. Как спасти продукты, используя алгоритм Apriori, расскажу в посте.

Превью для статьи

Использование функции DATETRUNC() в SQL

Добрый день!
При постоянно увеличивающихся потоках обрабатываемой информации одним из важных классификаторов в обработке данных является значение даты и времени. Для вычисления необходимой даты для поиска, например, первого числа предыдущего квартала, последнего числа следующего квартала и т.д., обычно используется несколько функций: CONVERT(), DATEADD(), DATEDIFF(). В версии SQL Server 2022 появилась функция DATETRUNC (), которая помогает легко реализовать этот сценарий выборки необходимой даты, используя меньшее количество функций, и соответственно, сократить время получения необходимого результата.

Превью для статьи

Как свернуть горы партиций с помощью PySpark

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов.

Превью для статьи

Что, где, откуда: извлекаем реляционный датасет из JSON

Всем привет!
В публикации разберу, как извлечь реляционный датасет из JSON