Превью для статьи

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них.

Превью для статьи

Автоматизированная загрузка массива CSV в БД

Не исключена ситуация, когда необходимо загрузить данные из нескольких фалов CSV в одну таблицу какой-либо базы данных. Если загружать 2-3 файла вручную, то это ещё терпимо, но загрузка 10 файлов уже может оказаться затратной по времени. Рассмотрю, как автоматизировать данный процесс

Превью для статьи

Ансамбли методов в алгоритмах поиска выбросов

Большинство кейсов по поиску аномалий сводятся к задаче определения выбросов в данных методом k-ближайших соседей или локального уровня выбросов (LOF). Автор этого поста рассказал, как улучшить точность работы таких методов, применяя ансамбли.

Превью для статьи

Использование алгоритма COPOD для поиска аномалий в аудите

С каждым годом data driven подход становится все более популярным. Объем данных увеличивается вместе с потребностью извлечения полезной информации из бесконечного потока данных. Передовые компании мира все чаще используют машинное обучение для обнаружения инсайтов и аномалий в больших данных. Хочу поделиться опытом использования алгоритма COPOD в рамках аудита интеллектуального управления электропитанием устройств предприятия. Целью поставленной […]

Превью для статьи

Подход к прогнозированию кредитного риска

При формировании резервов Компания должна ориентироваться на изменение риска наступления дефолта по финансовому активу.
Одним из методов прогнозирования вероятности дефолта является подход на основе цепей Маркова – матрица перехода Маркова. Это квадратная матрица, которая описывает вероятность перехода субпортфеля/заемщика из одного этапа в другой.
В этой статье описывается процесс построения матриц миграции и предлагается код, написанный на языке Python, с помощью которого можно возвести квадратную матрицу в необходимую степень.

Превью для статьи

Использование оператора IN для нескольких групп полей при помощи Python

Дата-аналитик редко сталкивается только с одним видом баз данных. Это может быть база Oracle, MS SQL, TERADATA, Облако данных и другие.
Иногда есть возможность импорта в базу данных, но, когда его нет, на помощь приходит Python совместно с оператором SQL IN. Особенно удобно его использовать в базе данных Oracle, но есть способ и для T-SQL.

Превью для статьи

Автоматизация загрузки данных из Oracle в MS SQL Server с помощью Python, без создания таблиц вручную и указания типа полей

Задачу по загрузке данных из Oracle и их записи в таблицу на MS SQL Server можно решить большим количеством способов. Как правило, даже для выполнения простого запроса приходится потратить большое количество времени, особенно, когда надо передать в Oracle перечень ID для поиска информации. Для решения задачи можно загрузить данные в файлы, затем написать код создания […]