Text mining Machine Learning
Картинка анонса

Ранжирование текстов по похожести на опорные тексты при помощи модели tf-idf в реализации gensim

Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выбрать самый подходящий для нас, можно выяснить похожесть всех остальных текстов на этот. Похожесть(similarity) это численная мера, чем выше – тем более текст похож, поэтому при сортировке по убыванию по этому параметру мы увидим наиболее подходящие нам тексты из выборки.

Text mining Machine Learning
Картинка анонса

Ранжирование текстов по похожести на опорные тексты при помощи модели tf-idf в реализации gensim

Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выбрать самый подходящий для нас, можно выяснить похожесть всех остальных текстов на этот. Похожесть(similarity) это численная мера, чем выше – тем более текст похож, поэтому при сортировке по убыванию по этому параметру мы увидим наиболее подходящие нам тексты из выборки.

Text mining Machine Learning
Картинка анонса

Text Mining. Основы нормализации текста за 5 минут

При реализации проектов, связанных с распознаванием речи, мы часто сталкиваемся с необходимостью приведения слов к его словарной форме. В этой статье мы рассмотрим начальные шаги по нормализации текста и покажем вам примеры.

Text mining
Картинка анонса

Быстрая кластеризация текста с помощью Mini Batch K-means и определение оптимального K

В этой статье пойдёт речь о, наверно, самой быстрой кластеризации текста.

Text mining Machine Learning
Картинка анонса

Мониторинг технического состояния сети

Для качественного обслуживания инфраструктуры компаний с большой филиальной сетью внедряются центры поддержки пользователей Service Desk/Help Desk. Основная их задача — регистрация заявок пользователей и предоставление требуемой помощи. Уровень качества обслуживания закрепляется между производителем услуг служб SD и их потребителями через документы SLA. Массив данных с заявками пользователей, временем и оценкой их выполнения предоставляют безграничные возможности для анализа.
В статье рассказывается о том, как, на основе комментариев заявок пользователей определить точки с самым слабым техническим состоянием.