Подготовка данных Machine Learning
Картинка анонса

Подготовка данных и кластеризация

Рассмотрим процесс подготовки данных к кластеризации и сам процесс кластеризации для целей аудита с помощью gensim.

Подготовка данных Machine Learning
Картинка анонса

Подготовка данных и кластеризация

Рассмотрим процесс подготовки данных к кластеризации и сам процесс кластеризации для целей аудита с помощью gensim.

Подготовка данных
Картинка анонса

УВЕЛИЧИВАЕМ ДАТАСЕТ ДЛЯ НАШЕЙ МОДЕЛИ БЕЗ СМС И РЕГИСТРАЦИИ

Что делать, если нужно быстро обучить модель, а набор данных мал? Очень мал. Неприлично мал.

Подготовка данных Machine Learning
Картинка анонса

ОЦЕНКА СТАБИЛЬНОСТИ ПОПУЛЯЦИИ С ПОМОЩЬЮ ИНДЕКСА PSI.

В основной своей массе, статьи по machine learning сосредотачиваются на очистке данных, выборе алгоритма для проектирования прогнозирующей функции и первичной оценке качества прогнозирования целевой переменной. Но не менее важным этапом, следующим за уже перечисленными, является мониторинг стабильности новых выборок относительно выборок, участвующих в разработке и в первичной оценке модели.

Подготовка данных Анализ данных
Картинка анонса

Использование Pipeline в работе с данными

В своей работе Data Scientist используют различные модели для улучшения качества метрик. Чтобы применить модель, предварительно необходимо затратить существенные ресурсы на обработку всего массива необработанных данных. Мы расскажем об инструменте, которым пользуемся для оптимизации этого процесса. Инструмент Pipeline позволяет объединить несколько операций обработки данных в единую модель библиотеки Python «Scikit-learn».

Анализ данных Machine Learning
Картинка анонса

Анализ данных с помощью Google BigQuery

В предыдущей публикации мы написали о возможности обмениваться информацией для построения отчетов на Power BI.
Сейчас мы расскажем об анализе данных с помощью облачного сервиса Google BigQuery.

Подготовка данных Machine Learning
Картинка анонса

Оценка важности «фичей» для нелинейных моделей

Добрый день!
В начале рабочей недели предлагаем Вам обсудить тему оценки важности «фичей» для модели машинного обучения. В данной статье рассказывается об инструменте, который поможет не только провести оценку важности признаков для нелинейных моделей, но и получить интерпретируемое решение вместо черного ящика, а также открыть для себя новые возможности по улучшению качества модели и анализу данных.

Python Excel/PowerQuery/VBA
Картинка анонса

Выгрузка массивных таблиц из Hive

Границы только в голове! Как можно обойти ограничение в 100 тыс. строк в Hive? В этой статье я поделюсь с вами опытом выгрузки данных из Hive через WinSCP и Python

Загрузить ещё