Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

На примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Превью для статьи

Предсказания, гадания… FILL-MASK моделирование!

В различных отраслях, связанных с клиентским сервисом, задачи NLP не редкость: суммаризация, сентиментный анализ, рекомендательные сервисы. По ссылке ниже кейс моделирования с маскированием

Превью для статьи

Играем в эпидемиологов

Математическое моделирование нашло широкое применение в различных областях науки, в том числе в медицине. Возможность воспроизвести результат, не прибегая к реальным экспериментам, весьма полезна по ряду причин: это быстро, дешево, этично. Я приведу пример построения модели распространения инфекции.

Превью для статьи

Neo4j – графовые базы данных

Многие разработчики при выборе подходящей базы данных для своего проекта отдают предпочтение реляционным. В этой статье рассмотрим нереляционную графическую базу данных Neo4j, которая более эффективна для обработки растущего объёма подключенных данных, оптимизированную для управления отношениями. Одно из применений графовых баз данных – это продвижение рекомендаций, рекламных акций и оптимизации логистики. Эту систему на основе Neo4j используют такие компании, как ADEO, eBay и ATPCO. Рассмотрим базовый функционал и пример использования в рамках системы рекомендации.

Превью для статьи

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Превью для статьи

Симуляция односерверных очередей на Python

Системы, состоящие из сервера и очереди – это фундаментальная часть симуляции естественных процессов. В этой статье мы разберем как запрограммировать такую систему на Python и проанализировать результаты.
Используя этот пример, вы можете рассчитать параметры изучаемых систем в различных ситуациях, а составляя сложные модели, состоящие из нескольких очередей, можно смоделировать очень сложные системы.
Результат моделирования вы можете сравнить с работой существующей системы, и выявить тем самым ее недостатки.