Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

A/B тестирование: как сделать правильный выбор?

А/В-тестирование – метод, который используется для сравнения двух версий переменной, например, дизайна сайта при маркетинговом исследовании с целью выявления лучшей версии. Это критически важный метод исследования в Data Science, который часто используется различными организациями при принятии решений с целью оптимизации существующего продукта и максимизации прибыли. В посте расскажу об этой теме подробнее.

Превью для статьи

Microsoft Bing и ChatGPT – buddy DA/DS-аудитора

Кто такой buddy? Человек, который может подсказать решение, когда ты зашёл в тупик, подскажет, как лучше прокачать навыки, ответит, если тебе что-то непонятно. Личный buddy – мечта любого. Мы с моим коллегой DA/DS-аудиторы и решили протестировать новые инструменты: ChatGPT, чат поисковика Bing и выяснить, смогут ли они стать нашими buddy.

Превью для статьи

«Пробенчмаркать уже это всё наконец» – тестирование инструментов для обработки данных на Python. Часть 1.

Это будет история о том, как мы придумали и приступили к реализации бенчмарка объективным, упорядоченным и унифицированным способом – через написание универсального инструмента.
В первой части публикации представим теоретическую часть задачи, предпосылки, а также первую попытку реализации универсального инструмента.

Превью для статьи

Оценка качества работы систем Speech to Text

Привет! Передо мной стояла задача транскрибации большого количества телефонных разговоров. В этом посте расскажу об основных и альтернативных метриках качества, применяемых для оценки работы систем автоматизированного распознавания речи, а также об ошибках в распознавании слов и символов.

Превью для статьи

Алгоритмы для выделения ключевых слов: Rake, YAKE!, TextRank

Добрый день! Сегодня речь пойдет про алгоритмы выделения ключевых слов Rake, YAKE! И TextRank. Выделение ключевых слов становится все более актуальным с постоянным ростом объемов текстовой информации, которую необходимо каким-то образом классифицировать по тематике. Рассмотренные модели обладают интересными свойствами и преимуществами по сравнению с классическими алгоритмами, поскольку не требуют обучения.

Превью для статьи

Сегментация в GreenPlum

GreenPlum является массово-параллельной (Massively Parallel Processing) СУБД, что предполагает особый подход по сравнению с традиционными (Single-Node) СУБД.Понимание особенностей реализации MPP в GreenPlum важно при создании таблиц и в особенности, при выборе способа сегментации. Например, неэффективное сегментирование может многократно снизить скорость обращения к строкам таблиц, занять больше дискового пространства чем требуется.