Превью для статьи

Использование библиотеки vaex для обработки больших объёмов данных

При работе с большими датасетами, используя стандартные средства Pandas, может возникнуть проблема недостатка оперативной памяти, что приведёт к невозможности обработать эти данные. Для таких случаев был разработан ряд вспомогательных библиотек, рассмотрю одну из них – vaex

Превью для статьи

Koalas – Pandas для Spark.

Koalas – Python-библиотека, которая внедряет Pandas API поверх Apache Spark.
В сферах анализа данных, Pandas является библиотекой по умолчанию. Большинство специалистов по обработке данных начинают именно с Pandas и Numpy, а затем, при необходимости, переходят на другие библиотеки.
Pandas отлично подходит для анализа малого количества данных. При столкновении же с большими наборами данных не обойтись без использования Spark.

Превью для статьи

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Превью для статьи

От Pandas к Dask

Приходится ли Вам обрабатывать табличные данные на персональных компьютерах? Зачастую обработка таких данных выполняется с помощью Python и библиотеки Pandas.
Несмотря на удобство и широкий функционал библиотеки Pandas, обработка с её помощью больших наборов данных становится затруднительной. Преодолеть ограничения, связанные с большим объемом данных, позволяет библиотека Dask.

Превью для статьи

Простое эконометрическое прогнозирование.

Сегодня в статье рассмотрим создание простой прогнозной модели на основе линейного тренда с помощью эконометрических методов.

Превью для статьи

Pandas: работа с неструктурированными файлами.

Очень часто аналитики сталкиваются с неструктурированными файлами, которые необходимо обработать и проанализировать. Обычно базовых функциональных возможностей MS Excel хватает для выполнения подобных задач. Но что делать, если уровень обработки файла выходит за рамки этих возможностей? Ответ прост – использовать Python и библиотеку pandas, которая предназначена для обработки и анализа данных.

Превью для статьи

Создаем отчеты для моделей машинного обучения с evidently

Evidently помогает оценивать и контролировать модели в производственной среде. Сегодня я расскажу как создать такой отчет.

Data News