Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

19.10.2023, Портнов Клим, г. Москва

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Machine learning and neural networks Технологии аудита

Превью для статьи

17.11.2022, Антон Станевич, г. Иркутск

Создание и исследование лога процесса выполнения программы с помощью process mining

Анализ исходного кода — давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях, занимающихся разработкой программ.
Делюсь практикой исследования кода приложения, которую использовал я, для решения задачи

Graph mining Технологии аудита

Превью для статьи

26.08.2022, Иван Попов, г. Иркутск

Автоматизированная загрузка массива CSV в БД

Не исключена ситуация, когда необходимо загрузить данные из нескольких фалов CSV в одну таблицу какой-либо базы данных. Если загружать 2-3 файла вручную, то это ещё терпимо, но загрузка 10 файлов уже может оказаться затратной по времени. Рассмотрю, как автоматизировать данный процесс

Databases and big data Другие технологии

Превью для статьи

18.07.2022, Кухтенко Андрей, г. Хабаровск

Spark способы оптимизации запросов

Основная проблема при работе с BigData – это не написание скрипта для получения результата, а максимальное сокращение времени его работы и объема затрачиваемых ресурсов. Для решения этих задач отлично подходит Apache Spark с его удивительно гибкими возможностями по оптимизации кода. Сегодня я опишу несколько способов оптимизации запросов.

Data manipulation Другие технологии

Превью для статьи

08.02.2022, Павлова Анастасия, г. Иркутск

Neo4j – графовые базы данных

Многие разработчики при выборе подходящей базы данных для своего проекта отдают предпочтение реляционным. В этой статье рассмотрим нереляционную графическую базу данных Neo4j, которая более эффективна для обработки растущего объёма подключенных данных, оптимизированную для управления отношениями. Одно из применений графовых баз данных – это продвижение рекомендаций, рекламных акций и оптимизации логистики. Эту систему на основе Neo4j используют такие компании, как ADEO, eBay и ATPCO. Рассмотрим базовый функционал и пример использования в рамках системы рекомендации.

Databases and big data Другие технологии

Превью для статьи

28.01.2022, Кагерманов Рамазан, г. Москва

Spark Workflow

Рассмотрим, что происходит от старта до окончания работы Spark приложения

Databases and big data Другие технологии

Превью для статьи

14.01.2022, Савин Кирилл, г. Новосибирск

River – библиотека для инкрементного машинного обучения на потоковых данных

Обеспечение постоянной доступности к данным является жестким ограничением для применения машинного обучения в большинстве приложений из реального мира, где данные генерируются непрерывно.
Непрерывное обучение отлично показывает себя в задачах прогнозирования временных рядов, фильтрации спама, рекомендательных системах, прогнозировании CTR и интернете вещей. Подробнее расскажем в этой статье

Machine learning and neural networks Другие технологии