Text mining Python
Картинка анонса

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Text mining Python
Картинка анонса

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Text mining
Картинка анонса

Получить подарок — это просто … текст майнинг

С помощью несложного текст майнинга можно узнать, за что дают подарки.

Text mining Python
Картинка анонса

Нечеткий поиск по документам

Передо мной стояла задача провести поиск по распознанным OCR документам с целью нахождения в них ключевых слов из списка. Поскольку в тексте могли встречаться ошибки распознавания, решено было использовать нечёткий поиск на базе rapidfuzz – самой быстрой библиотеки для нечёткого поиска на Python

Text mining Machine Learning
Картинка анонса

Мультиклассовая классификация текста

Доброе утро, друзья!
В данной статье мы разберемся как можно обрабатывать текст и строить модель мультиклассовой классификации текста

Python Machine Learning
Картинка анонса

Мультиклассификация экстремально коротких текстов классическими методами машинного обучения

В мире коммерции существует множество применений классификации текста. Например, новости часто сгруппированы по темам, контент или товары часто помечаются по категориям, а пользователей можно разделить на группы, в зависимости от того, как они отзываются о товаре в Интернете. Однако большинство статей в сети описывают бинарную классификацию, но чаще реальные задачи оказываются сложнее. В этой статье мы будем проводить мультиклассовую классификацию обращений в службу банка.

Text mining Python
Картинка анонса

Анализ тональности текста с использованием словарей эмотивной лексики

Дана классическая задача по тональности текста – поиск в тексте негатива. Для размеченных данных задача сводится к простой бинарной классификации, но данные не всегда могут быть размечены изначально.

Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Загрузить ещё