Превью для статьи

Найти всё. Text Mining

Всем добрый день! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из текста 300 тыс. документов такой как: номер счета, с которого можно снять средства, разрешенная сумма, период действия. Пример интересующей меня части документа уже здесь

Превью для статьи

Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке

Всем добрый день! Предлагаю рассмотреть архитектуру новой модели W2NER для решения задачи распознавания сущностей в текстах и обучить её работе с русским языком

Превью для статьи

Создание кросс-таблиц

В ходе анализа данных периодически возникает потребность в их обобщении, а именно создания кросс-таблиц. Кросс-таблица — это сводная таблица, заголовки в которой могут располагаться как по строкам, так и по столбцам, позволяя отобразить взаимосвязь двух и более переменных друг с другом.
В построении таких таблиц поможет Pandas

Превью для статьи

Почему ваш pandas работает в 3000 раз медленнее?

Наверное, все пользователи pandas знают, что многие действия можно сделать разными способами. Но далеко не каждый понимает, в чем разница, и почему их код может работать более чем в 3000 раз медленнее, чем у соседа. Давайте разберемся, в чём проблема.

Превью для статьи

Проверка гипотез на python

С каждым днем количество данных становится больше и больше. И как говорится, чем больше ты знаешь, тем больше ты задаешь вопросов, и тем больше ты хочешь получить ответов. Получить ответы на основе данных можно с помощью статистики. А именно, если требуется что-то сравнить, поможет проверка статистических гипотез

Превью для статьи

Использование алгоритма COPOD для поиска аномалий в аудите

С каждым годом data driven подход становится все более популярным. Объем данных увеличивается вместе с потребностью извлечения полезной информации из бесконечного потока данных. Передовые компании мира все чаще используют машинное обучение для обнаружения инсайтов и аномалий в больших данных. Хочу поделиться опытом использования алгоритма COPOD в рамках аудита интеллектуального управления электропитанием устройств предприятия. Целью поставленной […]

Превью для статьи

Парсинг и обработка данных из сети интернет без использования программирования на примере анализа отзывов.

Рассмотрим, как можно использовать всего лишь один универсальный инструмент для полноценного процесса анализа от сбора информации до визуализации итогов в рамках конкретной задачи. В качестве такого инструмента в данном случае выступает Power BI.

Data News