Превью для статьи

Способы представления аудио в ML

В статье рассмотрены основные формы представления аудио для дальнейшего использования в различных сферах обработки данных.

Превью для статьи

Анализ тональности текста с использованием фреймворка LightAutoML

При проведении аудита периодически возникают задачи анализа тональности текстов, таких как обращения клиентов. Существует множество готовых решения для определения тональности. В этой статье мы рассмотрим одно из решений, а именно LightAutoML.

Превью для статьи

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Превью для статьи

Способы упрощения текстов: плюсы, минусы, альтернативы.

Сложно понять содержимое текста, если в нем встречается много незнакомых слов. Вариант решения этой проблемы – замена слов на близкие к ним по значению. Заменить слово на синоним можно, например, тремя способами – трансформером, word2vec и его модификацией — RusVectores.

Превью для статьи

NLP: Обработка обращений жителей: иерархическая кластеризация текстов

Всем привет! Сегодня я хочу поделиться решением задачи по анализу жалоб граждан в Московскую мэрию, которую я реализовывал в рамках конкурса DSC.

Превью для статьи

Анализ комментариев клиентских менеджеров по результатам коммуникаций с клиентами

Как исследовать комментарии клиентских менеджеров по результатам коммуникаций с клиентами? А если число разговоров измеряется миллионами? На помощь приходит NLTK.

Превью для статьи

NER для русского языка в Spacy 3: удобно и легко

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков […]

Data News