Превью для статьи

Koalas – Pandas для Spark.

Koalas – Python-библиотека, которая внедряет Pandas API поверх Apache Spark.
В сферах анализа данных, Pandas является библиотекой по умолчанию. Большинство специалистов по обработке данных начинают именно с Pandas и Numpy, а затем, при необходимости, переходят на другие библиотеки.
Pandas отлично подходит для анализа малого количества данных. При столкновении же с большими наборами данных не обойтись без использования Spark.

Превью для статьи

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Превью для статьи

Простое эконометрическое прогнозирование.

Сегодня в статье рассмотрим создание простой прогнозной модели на основе линейного тренда с помощью эконометрических методов.

Превью для статьи

Pandas: работа с неструктурированными файлами.

Очень часто аналитики сталкиваются с неструктурированными файлами, которые необходимо обработать и проанализировать. Обычно базовых функциональных возможностей MS Excel хватает для выполнения подобных задач. Но что делать, если уровень обработки файла выходит за рамки этих возможностей? Ответ прост – использовать Python и библиотеку pandas, которая предназначена для обработки и анализа данных.

Превью для статьи

Поиск адресов в «испорченных» данных

Для проведения проверки необходимо было установить адреса нескольких сотен объектов недвижимости. Проблема в том, что адреса были написаны в разных частях документов, документы имели различные форматы, и сам адрес также мог быть написан разнообразными способами.
Да, существует возможность использовать для данной задачи различные библиотеки и сервисы, но источники данных с информацией об этих объектах должны быть упорядочены и однородны. Можно ли используя минимум ресурсов решать подобные задачи? Можно! Рассмотрим решение на основе Python 3, Pandas и нескольких библиотек для конвертации файлов в датафреймы.

Превью для статьи

Функции стандартного отклонения в разных библиотеках

В этой статье поговорим о том, что такое среднеквадратичное (стандартное) отклонение, с помощью какой формулы можно его рассчитать, и какие подводные камни ожидают нас при использовании различных библиотек для его вычисления

Превью для статьи

Ищем аналоги для pandas в Java.

Что первое приходит на ум, когда мы слышим обработка больших данных в python? Конечно же pandas. Но что делать, если мы решили использовать Java для этих целей?

Data News