Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

NLP Machine Learning
Картинка анонса

Способы упрощения текстов: плюсы, минусы, альтернативы.

Сложно понять содержимое текста, если в нем встречается много незнакомых слов. Вариант решения этой проблемы – замена слов на близкие к ним по значению. Заменить слово на синоним можно, например, тремя способами – трансформером, word2vec и его модификацией — RusVectores.

NLP Machine Learning
Картинка анонса

NLP: Обработка обращений жителей: иерархическая кластеризация текстов

Всем привет! Сегодня я хочу поделиться решением задачи по анализу жалоб граждан в Московскую мэрию, которую я реализовывал в рамках конкурса DSC.

NLP Machine Learning
Картинка анонса

Анализ комментариев клиентских менеджеров по результатам коммуникаций с клиентами

Как исследовать комментарии клиентских менеджеров по результатам коммуникаций с клиентами? А если число разговоров измеряется миллионами? На помощь приходит NLTK.

NLP Machine Learning
Картинка анонса

NER для русского языка в Spacy 3: удобно и легко

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков […]

NLP Machine Learning
Картинка анонса

Улучшаем время лемматизации текста для дальнейшей обработки методами NLP.

Большой объём всевозможных текстовых сообщений представляет собой интерес с точки зрения текстового анализа, однако именно их количество создаёт ряд проблем, связанных с временем которое требуется на их обработку. Даже с учётом использования методов Natural Language Processing на подготовку данных и формирование модели может уходить большое количество времени, так что полезно понимать каким образом можно повысить скорость выполнения расчётов.

NLP Machine Learning
Картинка анонса

Оценка сложности и удобочитаемости текста

Зачастую аудиторские документы и акты написаны достаточно сложным языком, применяются слишком длинные слова или же слишком длинные предложения, трудные для восприятия речевые обороты. Таким образом, чтобы результаты аудиторских проверок были понятны для каждого человека, необходимо упрощать текст. Но перед тем, как текст упростить, необходимо сначала измерить его сложность с помощью специальных индексов, о которых пойдет речь в данной статье.

Загрузить ещё