14.01.2021, Евгений Игумнов, Максим Милованов, г. Новосибирск Категоризация документов с помощью LDA в библиотеке genism
Когда в процессе работы накапливается множество различных документов и нет времени на их сортировку или поступают обращения от клиентов и никак не структурируются, рано или поздно остро встаёт вопрос наведения порядка. Поиск какого-то одного документа или нескольких похожих становится затруднительным. Для более эффективной структуризации лучше всего подойдёт категоризация по темам. Среди различных отраслей и методов машинного обучения подходит тематическое моделирование. Рассмотрим один из методов тематического моделирования – скрытое размещение Дирихле, и реализуем его с помощью библиотеки gensim в Python.