Python
Картинка анонса

Категоризация документов с помощью LDA в библиотеке genism

Когда в процессе работы накапливается множество различных документов и нет времени на их сортировку или поступают обращения от клиентов и никак не структурируются, рано или поздно остро встаёт вопрос наведения порядка. Поиск какого-то одного документа или нескольких похожих становится затруднительным. Для более эффективной структуризации лучше всего подойдёт категоризация по темам. Среди различных отраслей и методов машинного обучения подходит тематическое моделирование. Рассмотрим один из методов тематического моделирования – скрытое размещение Дирихле, и реализуем его с помощью библиотеки gensim в Python.