Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Python NLP
Картинка анонса

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

NLP Machine Learning
Картинка анонса

Способы упрощения текстов: плюсы, минусы, альтернативы.

Сложно понять содержимое текста, если в нем встречается много незнакомых слов. Вариант решения этой проблемы – замена слов на близкие к ним по значению. Заменить слово на синоним можно, например, тремя способами – трансформером, word2vec и его модификацией — RusVectores.

NLP Machine Learning
Картинка анонса

NLP: Обработка обращений жителей: иерархическая кластеризация текстов

Всем привет! Сегодня я хочу поделиться решением задачи по анализу жалоб граждан в Московскую мэрию, которую я реализовывал в рамках конкурса DSC.

Text mining NLP
Картинка анонса

Способы упрощения текстов: плюсы, минусы, альтернативы

Сложно понять содержимое текста, если в нем встречается много незнакомых слов. Вариант решения этой проблемы – замена слов на близкие к ним по значению. Заменить слово на синоним можно, например, тремя способами – трансформером, word2vec и его модификацией — RusVectores.

NLP Machine Learning
Картинка анонса

Обнаружение таблиц на сканах с использованием Fast-RСNN на PyTorch.

Компьютерное зрение — очень интересная и востребованная область искусственного интеллекта. Компьютерное зрение сейчас используется повсеместно, начиная от сегментации медицинских изображений, заканчивая управлением автомобилем. Сейчас мы коснемся одной из основных задач компьютерного зрения — обнаружения объектов.
Множество информации хранится в форме сканированных документов. Извлечь текст можно при помощи методов оптического распознавания. Но если нас интересует структурированная информация, например, таблицы, то ограничиться методами оптического распознавания мы не сможем.

NLP Machine Learning
Картинка анонса

Анализ комментариев клиентских менеджеров по результатам коммуникаций с клиентами

Как исследовать комментарии клиентских менеджеров по результатам коммуникаций с клиентами? А если число разговоров измеряется миллионами? На помощь приходит NLTK.

NLP Machine Learning
Картинка анонса

Применяем UDPipe на R в решении задач NLP

На текущий момент времени наиболее часто используемым языком программирования при решении DS-задач, в частности задач NLP, является Python, обладающий огромным набором качественных библиотек. Однако, инструментарием для данного класса задач обладают и другие языки, например, Java, Scala, R. Последнему языку (R) в статье уделим основное внимание. Будучи ориентированным в основном на статистическую обработку и анализ данных, а также визуализацию, R видится в данном классе задач наиболее явным конкурентом для Python

Загрузить ещё