Feature engineering и кластерный анализ клиентов на PySpark

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

12.10.2023, Смолюк Анастасия,г. Екатеринбург; Путилова Елена,г. Екатеринбург

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Machine learning and neural networks Технологии аудита

Превью для статьи

06.04.2023, Котов Илья, г. Екатеринбург

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

На примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Text mining Технологии аудита

Превью для статьи

28.09.2022, Крутикова Светлана, Вронский Кирилл, г. Хабаровск

Предсказания, гадания… FILL-MASK моделирование!

В различных отраслях, связанных с клиентским сервисом, задачи NLP не редкость: суммаризация, сентиментный анализ, рекомендательные сервисы. По ссылке ниже кейс моделирования с маскированием

Text mining Технологии аудита

Превью для статьи

28.02.2022, Косырькова Мария, г. Самара

Играем в эпидемиологов

Математическое моделирование нашло широкое применение в различных областях науки, в том числе в медицине. Возможность воспроизвести результат, не прибегая к реальным экспериментам, весьма полезна по ряду причин: это быстро, дешево, этично. Я приведу пример построения модели распространения инфекции.

Machine learning and neural networks Другие технологии

Превью для статьи

08.02.2022, Павлова Анастасия, г. Иркутск

Neo4j – графовые базы данных

Многие разработчики при выборе подходящей базы данных для своего проекта отдают предпочтение реляционным. В этой статье рассмотрим нереляционную графическую базу данных Neo4j, которая более эффективна для обработки растущего объёма подключенных данных, оптимизированную для управления отношениями. Одно из применений графовых баз данных – это продвижение рекомендаций, рекламных акций и оптимизации логистики. Эту систему на основе Neo4j используют такие компании, как ADEO, eBay и ATPCO. Рассмотрим базовый функционал и пример использования в рамках системы рекомендации.

Databases and big data Другие технологии

Превью для статьи

11.01.2022, Атамасова Екатерина,г. Екатеринбург

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Text mining Технологии аудита

Превью для статьи

11.11.2021, Полянин Михаил, г. Иркутск

Симуляция односерверных очередей на Python

Системы, состоящие из сервера и очереди – это фундаментальная часть симуляции естественных процессов. В этой статье мы разберем как запрограммировать такую систему на Python и проанализировать результаты.
Используя этот пример, вы можете рассчитать параметры изучаемых систем в различных ситуациях, а составляя сложные модели, состоящие из нескольких очередей, можно смоделировать очень сложные системы.
Результат моделирования вы можете сравнить с работой существующей системы, и выявить тем самым ее недостатки.

Software Engineering Другие технологии