Превью для статьи

Не тормози! Используй DASK!

Чем больше у нас данных, тем больше возможностей у аудитора извлечь из них полезную в работе информацию. Однако сбор данных — это только часть задачи, первый этап. Аудитору необходимо решить и где их хранить, и как обработать.
Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием.
По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени.
Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask.

Превью для статьи

Подходы к работе с малыми данными

В погоне за Big Data зачастую можно забыть о том, что для многих случаев больших объёмов данных может просто не существовать. А ведь работа на малых данных сопряжена со своими сложностями и зачастую требует иного подхода, при этом выдавая не менее ценные результаты. В данной статье рассматриваются несколько проблемных факторов и методов их решения при работе с датасетами малого объёма.

Превью для статьи

Анализ Терабайта

Компании, стремящиеся стать лидерами рынка, все больше развивают клиентоориентированность и клиентоцентричность. Для оценки качества предоставляемых услуг, мы провели анализ негативных обращений и установили, что услуги, предоставляемые клиентам на устройствах самообслуживания, требуют особого внимания.

Превью для статьи

Онлайн-мероприятие «Аудит больших данных: ищем аномалии»

Превью для статьи

Анализ данных: от простого к сложному

10-00 (МСК) Вебинар для начинающих DA: «Расширенные инструменты обработки данных Excel» 12-00 (МСК) Вебинар для продвинутых DA: «Поиск аномалий в больших объемах данных»

Data News