
Обработка документов docx с параграфами и таблицами
Доброе утро, друзья.
Мы уже рассказывали как очистить текст от лишних символов, от стопслов, а сегодня хотим показать как обработать документ docx с параграфами и таблицами с сохранением последовательности текста внутри него.

Можно всё: решение NLP задач при помощи SpaCy
В основе современных техник обработки естественного языка лежит множество операций: токенизация, POS-tagging, Named Entity Recognition (NER), построение синтаксических деревьев, определение семантической схожести слов. Модуль SpaCy поможет в решении каждой из этих задач, предоставив для этого самые удобные и быстрые инструменты.

БЫСТРАЯ РЕАЛИЗАЦИЯ OPINION MINING НА PYTHON МЕТОДАМИ NLP
Работали с текстом? А если текста очень много? А если необходимо его классифицировать именно так, как нужно вам, рассмотрим в статье

Использование текстовых и извлечённых числовых признаков в задаче классификации комментариев
Иногда при классификации текстов интерес для исследования представляют не только текстовые модели, но и числовые признаки, характеризующие текст. Предлагаем рассмотреть способ решения задачи multi-label classification, где в качестве классификатора используется Logistic regression, для токсичных комментариев с использованием как текстовых, так и числовых признаков.

Вебинар: Natural Language Processing.

Применение NLP в банках: возможности и кейс
Предлагаем рассмотреть использования NLP реализованный в крупном Банке на примере мониторинга кредитных рисков .

Dostoevsky: библиотека анализа настроений для русского языка.
Анализ настроений (Sentiment analysis) — это распространенная задача NLP, которая направлена на то, чтобы определить настроение по тексту. Для английского языка существует множество готовых моделей, которые обучены по Твиттеру и КиноПоиску. Однако, для русского языка всё сложнее, так как данных не так много. Для русского языка есть очень удобная библиотека на языке Python — Dostoevsky, […]