
Выгрузка массивных таблиц из Hive
Границы только в голове! Как можно обойти ограничение в 100 тыс. строк в Hive? В этой статье я поделюсь с вами опытом выгрузки данных из Hive через WinSCP и Python

Поиск связи между параметрами методом логичской регрессии
Важные данные или информационный шум? Какой признак влияет на качество процесса? Читай кейс про использование инструментов ML для определения влияющих факторов

GridSearchCV – помощник в выборе гиперпараметров модели
Процесс обучения модели поэтапный, начинается он с обработки данных, имеет стадию тюнинга, отдельную стадию обкатки и проверки. Предлагаем рассмотреть подробнее процесс тюнинга модели.
В данной статье показан опыт работы с компонентом GridSearchCV (библиотеки sklearn), который выберет наилучшие параметры модели за вас.

Простыми словами о методах решения проблем с переобучением
Рассмотрим одну из самых больших проблем в машинном обучении – переобучение (overfitting). Статья рассчитана на читателей, которые не занимаются непосредственно построением моделей, но при этом так или иначе работают с ними, анализируют их качество и результаты.

Использование фильтра Калмана (Kalman Filter) в DS соревнованиях на платформе Kaggle
Часто при первичной обработке данных, участники DS соревнований сталкиваются с проблемой «грязных зашумленных» данных. Беспорядочные колебания значений признаков (шумы) могут иметь самую разнообразную природу и являются основной проблемой машинного обучения. В связи с этим возникает необходимость очистки/фильтрации данных – восстановления исходного сигнала на фоне помех.

Алгоритм балансировки классов SMOTE
Во время обучения модели столкнулись с несбалансированными данными? Расскажем вам об инструменте, который поможет решить данную задачу.