Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

19.10.2023, Портнов Клим, г. Москва

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Machine learning and neural networks Технологии аудита

Превью для статьи

24.04.2023, Шукан Николай, г. Москва

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

С каждым годом растет сложность моделей, решающих вопросы семантически- и контекстно-ориентированной обработки естественного языка (NLP). Также нельзя забывать и про проблемы мультиязычности моделей. Все это сильно сказывается на увеличении их размеров и системных требований к железу для их обучения, дообучения, да и просто запуска. Задачи NLP сегодня – это прикладные задачи, их хочется решать на доступном оборудовании за доступное время

Text mining Технологии аудита

Превью для статьи

15.12.2022, Николай Коваленко, г. Ростов-на-Дону

Библиотека eli5 в приложении к задачам регрессии и классификации

Привет! Этот пост о моём опыте использования Python-библиотеки eli5 для анализа двух типов моделей: линейной регрессии и решающего дерева, а также о том, как библиотека eli5 представляет параметры этих моделей на известных датасетах

Machine learning and neural networks Другие технологии

Превью для статьи

02.08.2022, Гершевский Егор,г. Самара

Сравнительный анализ эффективности работы Cython и Python

Что «умеет» Cython, его плюсы и минусы, когда его стоит использовать и чем он превосходит Python? Подробнее по ссылке

Data manipulation Другие технологии

Превью для статьи

15.07.2022, Фисенко Екатерина, г. Новосибирск

3 пакета Python для генерации синтетических данных

Нет данных? Сгенерируй!
Рассмотрим три способа генерации синтетических данных с помощью пакетов Python.

Data manipulation Другие технологии

Превью для статьи

11.07.2022, Гершевский Егор, г. Самара

Обнаружение фейковых новостей по их заголовкам

Фальшивые новости – проблема современного общества. Такие новости без труда вводят людей в заблуждение через различные социальные сети, мессенджеры и СМИ. Всё это может привести к дезинформации населения, манипуляциям со стороны власти и общественным кризисам.

Text mining Технологии аудита

Превью для статьи

24.05.2022, Сергеев Егор, г. Нижний Новгород

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Text mining Технологии аудита