Python Excel/PowerQuery/VBA
Картинка анонса

Выгрузка массивных таблиц из Hive

Границы только в голове! Как можно обойти ограничение в 100 тыс. строк в Hive? В этой статье я поделюсь с вами опытом выгрузки данных из Hive через WinSCP и Python

Python Excel/PowerQuery/VBA
Картинка анонса

Выгрузка массивных таблиц из Hive

Границы только в голове! Как можно обойти ограничение в 100 тыс. строк в Hive? В этой статье я поделюсь с вами опытом выгрузки данных из Hive через WinSCP и Python

Подготовка данных Machine Learning
Картинка анонса

Поиск связи между параметрами методом логичской регрессии

Важные данные или информационный шум? Какой признак влияет на качество процесса? Читай кейс про использование инструментов ML для определения влияющих факторов

Подготовка данных Machine Learning
Картинка анонса

GridSearchCV – помощник в выборе гиперпараметров модели

Процесс обучения модели поэтапный, начинается он с обработки данных, имеет стадию тюнинга, отдельную стадию обкатки и проверки. Предлагаем рассмотреть подробнее процесс тюнинга модели.
В данной статье показан опыт работы с компонентом GridSearchCV (библиотеки sklearn), который выберет наилучшие параметры модели за вас.

Подготовка данных Machine Learning
Картинка анонса

Простыми словами о методах решения проблем с переобучением

Рассмотрим одну из самых больших проблем в машинном обучении – переобучение (overfitting). Статья рассчитана на читателей, которые не занимаются непосредственно построением моделей, но при этом так или иначе работают с ними, анализируют их качество и результаты.

Подготовка данных Machine Learning
Картинка анонса

Использование фильтра Калмана (Kalman Filter) в DS соревнованиях на платформе Kaggle

Часто при первичной обработке данных, участники DS соревнований сталкиваются с проблемой «грязных зашумленных» данных. Беспорядочные колебания значений признаков (шумы) могут иметь самую разнообразную природу и являются основной проблемой машинного обучения. В связи с этим возникает необходимость очистки/фильтрации данных – восстановления исходного сигнала на фоне помех.

Подготовка данных Machine Learning
Картинка анонса

Алгоритм балансировки классов SMOTE

Во время обучения модели столкнулись с несбалансированными данными? Расскажем вам об инструменте, который поможет решить данную задачу.