Feature engineering и кластерный анализ клиентов на PySpark

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

12.10.2023, Смолюк Анастасия,г. Екатеринбург; Путилова Елена,г. Екатеринбург

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Machine learning and neural networks Технологии аудита

Превью для статьи

05.06.2023, Щербинина Алина ,г. Иркутск

Первые шаги в большую разработку с Firebase. Подключение Firebase к Android-приложению

Разработка Android-приложений даже с несколькими пользователями (до 100 человек) подразумевает решение типовых задач, таких как работа с БД, аутентификация и безопасность, которые могут вызвать трудности у начинающих разработчиков. К счастью, в настоящее время существует несколько сервисов для автоматизации этих процессов.

Software Engineering Другие технологии

Превью для статьи

06.04.2023, Котов Илья, г. Екатеринбург

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

На примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Text mining Технологии аудита

Превью для статьи

15.03.2023, Анна Ламеева, г. Москва

Быстрый старт в Apache Spark ML

В рамках публикации расскажу о первоначальной обработке данных датасета, а также об обучении модели градиентного бустинга. Покажу базовые трансформации и действия, необходимые для получения результата обучения модели, что послужит хорошим и быстрым стартом для понимания работы Spark ML

Databases and big data Другие технологии

Превью для статьи

08.12.2022, Тетерин Александр, г. Санкт-Петербург

Графовый анализ в R с igraph

Задача анализа графа может состоять из множества небольших отдельных кирпичиков -подзадач. Сегодня я сделаю обзор отдельных базовых возможностей, а также поделюсь своим опытом работы с пакетом igraph – мощным инструментом для анализа графов в экосистеме языка R.

Graph mining Технологии аудита

Превью для статьи

11.05.2022, Анна Ламеева, г.Москва

Три подхода к анализу текстов

Один из способов проанализировать текст на первоначальном этапе – выделить в нем ключевые слова. Это помогает раскрыть содержание текстов более подробно, несильно вчитываясь в суть. Однако анализ ключевых слов можно провести в рамках разных задач, решаемых с помощью NLP (Natural Language Processing).
Рассмотрю три подхода выделения ключевых слов в тексте, применяемых в рамках разных задач анализа текста.

Text mining Технологии аудита

Превью для статьи

21.03.2022, Абрамчук Илья, г. Санкт-Петербург

Максимально просто о распознавании речи при помощи NeMo

В лучших традициях «питоновского дзена» мы будем максимально красивы, явны, просты, в меру сложны, читаемы и даже попытаемся легко объяснить данную реализацию, что как всем известно является признаком хорошей идеи. Ах да, и это прямо сейчас, что не никогда, так сказать, все признаки хорошего материала уже на лицо, в путь.

Natural Language Processing Технологии аудита