Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

Создание и исследование лога процесса выполнения программы с помощью process mining

Анализ исходного кода — давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях, занимающихся разработкой программ.
Делюсь практикой исследования кода приложения, которую использовал я, для решения задачи

Превью для статьи

Автоматизированная загрузка массива CSV в БД

Не исключена ситуация, когда необходимо загрузить данные из нескольких фалов CSV в одну таблицу какой-либо базы данных. Если загружать 2-3 файла вручную, то это ещё терпимо, но загрузка 10 файлов уже может оказаться затратной по времени. Рассмотрю, как автоматизировать данный процесс

Превью для статьи

Spark способы оптимизации запросов

Основная проблема при работе с BigData – это не написание скрипта для получения результата, а максимальное сокращение времени его работы и объема затрачиваемых ресурсов. Для решения этих задач отлично подходит Apache Spark с его удивительно гибкими возможностями по оптимизации кода. Сегодня я опишу несколько способов оптимизации запросов.

Превью для статьи

Neo4j – графовые базы данных

Многие разработчики при выборе подходящей базы данных для своего проекта отдают предпочтение реляционным. В этой статье рассмотрим нереляционную графическую базу данных Neo4j, которая более эффективна для обработки растущего объёма подключенных данных, оптимизированную для управления отношениями. Одно из применений графовых баз данных – это продвижение рекомендаций, рекламных акций и оптимизации логистики. Эту систему на основе Neo4j используют такие компании, как ADEO, eBay и ATPCO. Рассмотрим базовый функционал и пример использования в рамках системы рекомендации.

Превью для статьи

Spark Workflow

Рассмотрим, что происходит от старта до окончания работы Spark приложения

Превью для статьи

River – библиотека для инкрементного машинного обучения на потоковых данных

Обеспечение постоянной доступности к данным является жестким ограничением для применения машинного обучения в большинстве приложений из реального мира, где данные генерируются непрерывно.
Непрерывное обучение отлично показывает себя в задачах прогнозирования временных рядов, фильтрации спама, рекомендательных системах, прогнозировании CTR и интернете вещей. Подробнее расскажем в этой статье