Pandas NLP
Картинка анонса

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

Pandas NLP
Картинка анонса

BigARTM – тематическое моделирование на Python

Одной из задач обработки естественного языка является разделение коллекции текстов на темы, а также, выделение ключевых слов. Это делается для того, чтобы категорировать документы, например, для удобного поиска или получения общего представления о всей коллекции.
В данной статье рассказывается о библиотеке BigARTM (Python) для разделения текстов по тематикам.

NLP Machine Learning
Картинка анонса

Анализ тональности текста с использованием фреймворка LightAutoML

При проведении аудита периодически возникают задачи анализа тональности текстов, таких как обращения клиентов. Существует множество готовых решения для определения тональности. В этой статье мы рассмотрим одно из решений, а именно LightAutoML.

Python NLP
Картинка анонса

Анализ текста средствами библиотеки Stanza

Для решения задач обработки текстов на естественном языке на сегодняшний день существует множество библиотек для python. Один из них — библиотека Stanza от StanfordNLPGroup.

Python NLP
Картинка анонса

Перевод любых PDF-документов в текст: с распознаванием текста на изображениях и без

В ходе исследовательских проектов с применением NLP-моделей возникает необходимость извлечь текст из всех доступных видов файлов.

Python NLP
Картинка анонса

Анализ естественного языка (NLP)

В 1913 году ученые математики, используя ручной подсчет определили, что 43% гласных и 57% согласных содержит роман А.С. Пушкина «Евгений Онегин». Основной задачей было — построить первую модель генерирования языка и доказать, что статистические свойства языка можно моделировать. Сегодня расскажу, как, используя современные методы обработки языка, научить машину определять тематику текста.

Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

NLP Machine Learning
Картинка анонса

Способы упрощения текстов: плюсы, минусы, альтернативы.

Сложно понять содержимое текста, если в нем встречается много незнакомых слов. Вариант решения этой проблемы – замена слов на близкие к ним по значению. Заменить слово на синоним можно, например, тремя способами – трансформером, word2vec и его модификацией — RusVectores.

Загрузить ещё