Превью для статьи

Обработка больших данных при помощи библиотеки .NET for Apache Spark

В наше время остро стоит вопрос обработки больших данных, за все годы развития компьютерной инфраструктуры было накоплено и продолжает накапливаться огромное количество различных данных и старые методы их интерпретации уже не могут считаться оптимальными.
В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark

Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

Быстрый старт в Apache Spark ML

В рамках публикации расскажу о первоначальной обработке данных датасета, а также об обучении модели градиентного бустинга. Покажу базовые трансформации и действия, необходимые для получения результата обучения модели, что послужит хорошим и быстрым стартом для понимания работы Spark ML

Превью для статьи

Подбор гиперпараметров модели машинного обучения в PySpark

Сегодня я расскажу, как с помощью библиотеки ML Tuning осуществить подбор гиперпараметров модели GBTRegressor в PySpark

Превью для статьи

LazyFrame и отсутствие индексов: чем Polars отличается от Pandas

Если вы работаете с Pandas и ничего не слышали про Polars, предлагаю познакомиться с этой библиотекой и узнать, почему её нужно добавить в арсенал инструментов для работы с данными.

Превью для статьи

Как поймать опоссума логистической регрессией

Привет! Ранее я уже измеряла опоссумов линейной регрессией, предсказывала размеры тела по остальным метрикам. А что, если необходимо не предсказать значение, а разбить на классы? Например, мальчик или девочка, место ловли опоссума или популяцию.
В таком случае необходимо произвести классификацию. Предлагаю воспользоваться логистической регрессией.