Обработка больших данных при помощи библиотеки .NET for Apache Spark

Советуем почитать

Обработка больших данных при помощи библиотеки .NET for Apache Spark

Функции и процедуры в Greenplum

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Избавляемся от продуктов априори – использование ассоциативных правил для поиска комбинаций

Использование функции DATETRUNC() в SQL

Как свернуть горы партиций с помощью PySpark

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

28.12.2023, Станевич Антон, г. Иркутск

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Databases and big data Другие технологии

Превью для статьи

12.10.2023, Смолюк Анастасия,г. Екатеринбург; Путилова Елена,г. Екатеринбург

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Machine learning and neural networks Технологии аудита

Превью для статьи

13.04.2023, Дарморезов Вадим, г. Москва

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Text mining Технологии аудита

Превью для статьи

15.03.2023, Анна Ламеева, г. Москва

Быстрый старт в Apache Spark ML

В рамках публикации расскажу о первоначальной обработке данных датасета, а также об обучении модели градиентного бустинга. Покажу базовые трансформации и действия, необходимые для получения результата обучения модели, что послужит хорошим и быстрым стартом для понимания работы Spark ML

Databases and big data Другие технологии

Превью для статьи

01.03.2023, Морозов Никита, г. Екатеринбург

Подбор гиперпараметров модели машинного обучения в PySpark

Сегодня я расскажу, как с помощью библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark

Databases and big data Другие технологии

Превью для статьи

21.12.2022, Бастрыкова Елена,г. Екатеринбург

LazyFrame и отсутствие индексов: чем Polars отличается от Pandas

Если вы работаете с Pandas и ничего не слышали про Polars, предлагаю познакомиться с этой библиотекой и узнать, почему её нужно добавить в арсенал инструментов для работы с данными.

Data manipulation Другие технологии

Превью для статьи

16.11.2022, Екатерина Бердникова, г. Нижний Новгород

Как поймать опоссума логистической регрессией

Привет! Ранее я уже измеряла опоссумов линейной регрессией, предсказывала размеры тела по остальным метрикам. А что, если необходимо не предсказать значение, а разбить на классы? Например, мальчик или девочка, место ловли опоссума или популяцию.
В таком случае необходимо произвести классификацию. Предлагаю воспользоваться логистической регрессией.

Machine learning and neural networks Другие технологии