Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

Q-Learning в сфере оптимизации бизнес-процессов

Расскажем про алгоритм обучения с подкреплением Q-learning и его применении в сфере майнинга процессов. Алгоритм позволяет оптимизировать бизнес-процесс, превращая его из хаотичного графа, с большим количеством связей и ветвлений, в понятный и однозначный оптимальный путь исполнения.

Превью для статьи

Сегментация экземпляров с помощью Mask R-CNN

Задача сегментации изображений может решаться в нескольких постановках. Самая распространённая — semantic segmentation с одним классом и фоном, необходимо просто отделить объекты от фона, не различая их между собой. Но часто просто отделения от фона недостаточно, необходимо отделять отдельные образцы друг от друга, например, чтобы оценить размер или расположение каждого отдельного объекта. Как это можно […]

Превью для статьи

Классификация текста с использованием моделей трансформеров

Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста. Для работы с текстом существует большое количество решений. Самая простая и популярная […]

Превью для статьи

Распознавание нейросетью фейковых новостей по их тексту

Каждый день в сети появляется огромное количество «фейковых» новостей. Обычный человек, даже при наличии у него некоторых навыков, может принять «фейковую» новость за реальную. В таком случае на помощь приходят нейронные сети

Превью для статьи

Три подхода к анализу текстов

Один из способов проанализировать текст на первоначальном этапе – выделить в нем ключевые слова. Это помогает раскрыть содержание текстов более подробно, несильно вчитываясь в суть. Однако анализ ключевых слов можно провести в рамках разных задач, решаемых с помощью NLP (Natural Language Processing).
Рассмотрю три подхода выделения ключевых слов в тексте, применяемых в рамках разных задач анализа текста.

Превью для статьи

Использование библиотеки vaex для обработки больших объёмов данных

При работе с большими датасетами, используя стандартные средства Pandas, может возникнуть проблема недостатка оперативной памяти, что приведёт к невозможности обработать эти данные. Для таких случаев был разработан ряд вспомогательных библиотек, рассмотрю одну из них – vaex

Data News