Превью для статьи

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них.

Превью для статьи

Ищем выбросы. Критерий Шовене

Поиск выбросов, аномалий. Эта тема актуальна если исследователь — аналитик хочет получить адекватные результаты и избежать эффекта GIGO ( garbage in, garbage out — «мусор на входе — мусор на выходе»). Рассмотрим один из способов выявления аномальных выбросов – критерий Шовене.

Превью для статьи

Как почистить данные, не удаляя лишние знаки

Рассмотрим кейс быстрой очистки данных с использованием токенайзера python-библиотеки Natasha.

Превью для статьи

Бамбук, Mito-лист и Деталь, или как подготовиться ко встрече с пандами

Как часто вы сталкиваетесь с необходимостью выгрузить в MS Excel более миллиона строк? Все фильтры на выгрузку уже были наложены ранее, но, увы, она до сих пор «не проходит по габаритам». Перед нами встает дилемма – делить, или … воспользоваться готовыми решениями для python, не изучая python!

Превью для статьи

Работа с нечитаемыми символами в текстовых файлах

Как прочесть текстовые файлы с нечитаемыми символами (например, смайликами) или сохраненные в разных кодировках?

Превью для статьи

PANDAS VS SQL

Работа с данными с помощью Pandas вместо SQL. Так ли хороша популярная библиотека, разберемся в данном посте

Превью для статьи

Предсказания, гадания… FILL-MASK моделирование!

В различных отраслях, связанных с клиентским сервисом, задачи NLP не редкость: суммаризация, сентиментный анализ, рекомендательные сервисы. По ссылке ниже кейс моделирования с маскированием

Data News