Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

«Как измерить графа?» или графовые метрики для аналитика

С популяризацией темы графов, графовой аналитики и их визуализации, возрастает необходимость измерять / сравнивать / выявлять зависимости и различные иерархии. На основе метрик могут быть выявлены, как мошеннические схемы и аномалии, так и изучены пути распространения информации или даже извлечены дополнительные признаки для машинного обучения.

Превью для статьи

Распределение вычислительной мощности между несколькими ПК

В ходе работы возникла задач обработки огромного объема (~500 Гб) аудиозаписей в условиях ограниченного времени. На одном ПК обработка заняла бы не менее месяца, что не вписывалось в установленные заказчиком сроки. Возникла идея подключения компьютеров коллег, у которых ночью ПК «отдыхают». Весь процесс можно разбить на несколько шагов: Установка Python на рабочий компьютер. Скачивание на […]

Превью для статьи

Анализ данных в Qlik Sense

Представьте, что вы только недавно начали работать data аналитиком в крупной компании. Испытательный срок закончился и сегодня утром на планёрке руководитель отдела поручил вам первую настоящую задачу. Необходимо проанализировать данные, которые поступили из головного офиса. Так как это ваша первая задача, руководитель хочет чтобы вы проанализировали данные на предмет отклонений и подготовили отчёт.

Превью для статьи

Тематическое моделирование с использованием эмбеддингов BERT

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель — BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

Превью для статьи

Работа с docx c помощью bayoo-docx

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

Превью для статьи

Выявление компрометации учетных записей с помощью нейронных сетей

Потенциал использования Computer Vision для аудита невозможно переоценить. Существует множество задач, где в силу ограниченности человеческого ресурса приходится жертвовать либо охватом (когда вместо всех ВСП анализируются лишь часть), либо временным интервалом проверки (исследование недельного архива видеозаписей вместо квартального). В этой статье мы расскажем, как модель, собранная из нескольких нейронных сетей, позволила автоматически, без огромных затрат человеческого ресурса, выявлять случаи, когда сотрудники оставляют рабочие места без блокировки ПК, или даже позволяют работать коллегам под своими учетными данными.

Data News