Превью для статьи

Найти всё. Text Mining

Всем добрый день! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из текста 300 тыс. документов такой как: номер счета, с которого можно снять средства, разрешенная сумма, период действия. Пример интересующей меня части документа уже здесь

Превью для статьи

Zero-shot classification

Zero-shot классификация текстов представляет из себя задачу классификации, где модель не нуждается в обучении. Модель способна предсказать, к какому из заданных пользователем классов с наибольшей вероятностью относится текст

Превью для статьи

Применение Yargy-парсера при переводе русскоязычных слов в числа

Проект Natasha хорошо зарекомендовал себя в решении задач NER для работы с русским языком. Он предоставляет возможности для базовой обработки текстов: сегментация на токены и предложения, морфологический и синтаксический анализы, лемматизация и, наконец, распознавание именованных сущностей – аспект, который мы подробно рассмотрим сегодня. Также будет представлено составление своих правил с помощью Yargy-парсера, что необходимо в тех случаях, когда готовые решения показывают низкое качество.

Превью для статьи

Контент анализ суммаризированных новостных статей.

Возможно ли получить достаточно информации из суммаризированного текста новостных материалов? В этой статье постараюсь ответить на этот вопрос.

Превью для статьи

Анализ текста средствами библиотеки Stanza

Для решения задач обработки текстов на естественном языке на сегодняшний день существует множество библиотек для python. Один из них — библиотека Stanza от StanfordNLPGroup.

Data News