Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Превью для статьи

Метод наименьших квадратов: формулы, код и применение

Рассмотрим алгоритм оценки параметров модели, покажем как, зная логику его построения, можно модифицировать под изменившиеся условия и получить необходимый результат. «Расколдуем» классический метод наименьших квадратов, а также продемонстрируем удобство методологической интерпретации решения задачи в виде триады модель-алгоритм-программа

Превью для статьи

Градиентный бустинг с CatBoost. (часть 1/3)

Градиентный бустинг –метод Machine Learning. Он создает решающую модель прогнозирования, которая представляет собой ансамбль слабых моделей прогнозирования. Модель строится поэтапно, это позволяет максимизировать произвольную дифференцируемую функцию потерь.
Существует множество реализаций градиентного бустинга, но самыми частыми в использовании являются AdaBoost, CatBoost, LightGBM и XGBoost, каждая из библиотек по-своему хороша, но именно о CatBoost пойдет речь в данной статье.

Превью для статьи

НЕКОТОРЫЕ ОСОБЕННОСТИ СОЗДАНИЯ И ОТБОРА ПРИЗНАКОВ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТОВ ОЦЕНКИ ВАЖНОСТИ И КОЛЛИНЕАРНОСТИ В ML

В своей статье я хочу поделиться опытом преодоления некоторых трудностей, которые возникли в ходе реализации проекта по созданию риск-ориентированной выборки заемщиков – юридических лиц.

Превью для статьи

Особенности валидации моделей на XGBoost

Машинное обучение все чаще используется аналитиками для упрощения работы при решении текущих задач, для реализации новых проектов или для выявления каких-либо ошибок и отклонений. На данный момент одной из лидеров в машинном обучении для многих задач является библиотека XGBoost, основанная на алгоритме дерева решений и реализующая методы градиентного бустинга. Почему? Библиотека наиболее эффективна при построении […]

Превью для статьи

Полиномиальная регрессия и метрики качества модели

Применение линейной регрессии “из коробки” – задача нетривиальная. Но важно понимать метрики качества модели, а также то, что задача не всегда может сводится к стандартной линейной функции.