Превью для статьи

Тематическое моделирование с использованием эмбеддингов BERT

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель — BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

Превью для статьи

Контент анализ суммаризированных новостных статей.

Возможно ли получить достаточно информации из суммаризированного текста новостных материалов? В этой статье постараюсь ответить на этот вопрос.

Превью для статьи

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Превью для статьи

Получить подарок — это просто … текст майнинг

С помощью несложного текст майнинга можно узнать, за что дают подарки.

Превью для статьи

Нечеткий поиск по документам

Передо мной стояла задача провести поиск по распознанным OCR документам с целью нахождения в них ключевых слов из списка. Поскольку в тексте могли встречаться ошибки распознавания, решено было использовать нечёткий поиск на базе rapidfuzz – самой быстрой библиотеки для нечёткого поиска на Python

Превью для статьи

Мультиклассовая классификация текста

Доброе утро, друзья!
В данной статье мы разберемся как можно обрабатывать текст и строить модель мультиклассовой классификации текста

Превью для статьи

Мультиклассификация экстремально коротких текстов классическими методами машинного обучения

В мире коммерции существует множество применений классификации текста. Например, новости часто сгруппированы по темам, контент или товары часто помечаются по категориям, а пользователей можно разделить на группы, в зависимости от того, как они отзываются о товаре в Интернете. Однако большинство статей в сети описывают бинарную классификацию, но чаще реальные задачи оказываются сложнее. В этой статье мы будем проводить мультиклассовую классификацию обращений в службу банка.

Data News