Превью для статьи

Создай уведомления с помощью Python

Не хочешь пропустить важный момент работы твоей программы — её окончание? Решение есть!

Превью для статьи

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, какую же из них использовать — Natasha, Stanza и PullEnti?

Превью для статьи

Подключение внешних таблиц к Greenplum

Как легко создавать подключение между таблицами, размещенными в различных СУБД и ускорить работу с ними? Подробнее по ссылке

Превью для статьи

Сегментация в GreenPlum

GreenPlum является массово-параллельной (Massively Parallel Processing) СУБД, что предполагает особый подход по сравнению с традиционными (Single-Node) СУБД.Понимание особенностей реализации MPP в GreenPlum важно при создании таблиц и в особенности, при выборе способа сегментации. Например, неэффективное сегментирование может многократно снизить скорость обращения к строкам таблиц, занять больше дискового пространства чем требуется.

Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

Использование библиотеки vaex для обработки больших объёмов данных

При работе с большими датасетами, используя стандартные средства Pandas, может возникнуть проблема недостатка оперативной памяти, что приведёт к невозможности обработать эти данные. Для таких случаев был разработан ряд вспомогательных библиотек, рассмотрю одну из них – vaex

Превью для статьи

Python – наше всё: поиск строк в файле по ключевым словам

Устали фильтровать данные в excel? Тогда присоединяйтесь! Вы узнаете, как с помощью Python осуществить поиск строк в файле по ключевым словам в столбцах.

Data News