Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

19.10.2023, Портнов Клим, г. Москва

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Machine learning and neural networks Технологии аудита

Превью для статьи

12.10.2023, Смолюк Анастасия,г. Екатеринбург; Путилова Елена,г. Екатеринбург

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Machine learning and neural networks Технологии аудита

Превью для статьи

31.07.2023, Серов Александр, г. Екатеринбург

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

В данном посте я расскажу о возможностях применения параллельных вычислений в интерактивной среде Jupyter notebook языка Python.

Data manipulation Другие технологии

Превью для статьи

13.04.2023, Дарморезов Вадим, г. Москва

Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Text mining Технологии аудита

Превью для статьи

13.01.2023, Крутикова Светлана, Хмелёв Александр, Кравец Максим, г. Хабаровск

Читают ли андроиды об электроовцах?

Всем привет, в жизни, прям как в романе Филипа Дика, найти ответ на вопрос непросто… Может ли AI нам помочь? В данной публикации представлены примеры работ с системами автоматического ответа.

Text mining Технологии аудита

Превью для статьи

28.09.2022, Крутикова Светлана, Вронский Кирилл, г. Хабаровск

Предсказания, гадания… FILL-MASK моделирование!

В различных отраслях, связанных с клиентским сервисом, задачи NLP не редкость: суммаризация, сентиментный анализ, рекомендательные сервисы. По ссылке ниже кейс моделирования с маскированием

Text mining Технологии аудита

Превью для статьи

31.08.2022, Шевцов Алексей,г. Екатеринбург

Классификация текста c использованием библиотеки pystemmer

Моя задача – классифицировать имеющийся текст, иными словами, выполнить мультиклассовую классификацию данных.

Text mining Технологии аудита