Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

19.10.2023, Портнов Клим, г. Москва

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Machine learning and neural networks Технологии аудита

Превью для статьи

13.04.2023, Дарморезов Вадим, г. Москва

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Text mining Технологии аудита

Превью для статьи

31.05.2022, Аверьянов Андрей, г. Ростов-на-Дону

Метод наименьших квадратов: формулы, код и применение

Рассмотрим алгоритм оценки параметров модели, покажем как, зная логику его построения, можно модифицировать под изменившиеся условия и получить необходимый результат. «Расколдуем» классический метод наименьших квадратов, а также продемонстрируем удобство методологической интерпретации решения задачи в виде триады модель-алгоритм-программа

Machine learning and neural networks Другие технологии

Превью для статьи

07.12.2021, Новицкий Никита, г. Самара

Градиентный бустинг с CatBoost. (часть 1/3)

Градиентный бустинг –метод Machine Learning. Он создает решающую модель прогнозирования, которая представляет собой ансамбль слабых моделей прогнозирования. Модель строится поэтапно, это позволяет максимизировать произвольную дифференцируемую функцию потерь.
Существует множество реализаций градиентного бустинга, но самыми частыми в использовании являются AdaBoost, CatBoost, LightGBM и XGBoost, каждая из библиотек по-своему хороша, но именно о CatBoost пойдет речь в данной статье.

Machine learning and neural networks Другие технологии

Превью для статьи

28.09.2021, Зорин Вячеслав, г. Санкт-Петербург

НЕКОТОРЫЕ ОСОБЕННОСТИ СОЗДАНИЯ И ОТБОРА ПРИЗНАКОВ ОБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТОВ ОЦЕНКИ ВАЖНОСТИ И КОЛЛИНЕАРНОСТИ В ML

В своей статье я хочу поделиться опытом преодоления некоторых трудностей, которые возникли в ходе реализации проекта по созданию риск-ориентированной выборки заемщиков – юридических лиц.

Machine learning and neural networks Другие технологии

Превью для статьи

13.08.2021, Лесных Ирина, г. Воронеж

Особенности валидации моделей на XGBoost

Машинное обучение все чаще используется аналитиками для упрощения работы при решении текущих задач, для реализации новых проектов или для выявления каких-либо ошибок и отклонений. На данный момент одной из лидеров в машинном обучении для многих задач является библиотека XGBoost, основанная на алгоритме дерева решений и реализующая методы градиентного бустинга. Почему? Библиотека наиболее эффективна при построении […]

Machine learning and neural networks Другие технологии

Превью для статьи

23.07.2021, Антон Аразашвили г. Санкт-Петербург

Полиномиальная регрессия и метрики качества модели

Применение линейной регрессии “из коробки” – задача нетривиальная. Но важно понимать метрики качества модели, а также то, что задача не всегда может сводится к стандартной линейной функции.

Machine learning and neural networks Другие технологии