Обработка больших данных при помощи библиотеки .NET for Apache Spark

Советуем почитать

Обработка больших данных при помощи библиотеки .NET for Apache Spark

Функции и процедуры в Greenplum

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Использование функции DATETRUNC() в SQL

Как свернуть горы партиций с помощью PySpark

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

28.12.2023, Станевич Антон, г. Иркутск

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Databases and big data Другие технологии

Превью для статьи

03.07.2023, Якушев Георгий, г. Санкт-Петербург

Функции и процедуры в Greenplum

Сегодня расскажу, как я использовал функции и процедуры в Greenplum и как мне удалось существенно оптимизировать запрос с использованием функции.

Databases and big data Другие технологии

Превью для статьи

20.06.2023, Рахимов Рашид,г. Казань

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Всем привет! Ниже по ссылке один из методов автоматизации запуска SQL запросов в Apache Hadoop с помощью клиента Apache Beeline и командной оболочки Bash.

Databases and big data Другие технологии

Превью для статьи

17.04.2023, Лосев Алексей,г. Иркутск

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Я люблю готовить, поэтому постоянно закупаюсь ингредиентами для различных блюд. В последний раз я закупил их слишком много, и срок годности подходит к концу. Как спасти продукты, используя алгоритм Apriori, расскажу в посте.

Databases and big data Другие технологии

Превью для статьи

28.03.2023, Кречетов Андрей,г. Новосибирск

Использование функции DATETRUNC() в SQL

Добрый день!
При постоянно увеличивающихся потоках обрабатываемой информации одним из важных классификаторов в обработке данных является значение даты и времени. Для вычисления необходимой даты для поиска, например, первого числа предыдущего квартала, последнего числа следующего квартала и т.д., обычно используется несколько функций: CONVERT(), DATEADD(), DATEDIFF(). В версии SQL Server 2022 появилась функция DATETRUNC (), которая помогает легко реализовать этот сценарий выборки необходимой даты, используя меньшее количество функций, и соответственно, сократить время получения необходимого результата.

Databases and big data Другие технологии

Превью для статьи

27.03.2023, Попов Иван, г. Иркутск

Как свернуть горы партиций с помощью PySpark

В выгрузке больших данных, расположенных внутри таблиц Hive, Data-инженерам помогает фреймворк Spark. Но все ли так просто? Транзакционные таблицы зачастую имеют колоссальный объем, на обработку которого целиком может не хватать мощностей кластера. В посте я поделюсь своим опытом работы с большими таблицами в условиях ограниченных вычислительных ресурсов.

Databases and big data Другие технологии

Превью для статьи

24.03.2023, Жеронкин Антон, г. Санкт-Петербург

Что, где, откуда: извлекаем реляционный датасет из JSON

Всем привет!
В публикации разберу, как извлечь реляционный датасет из JSON

Databases and big data Другие технологии