Превью для статьи

Мы знаем, кто под маской! Или нахождение авторского инварианта при помощи свёрточной сети

Как определить принадлежность текста автору? Ниже по ссылке кейс классификации текста с помощью нейросети и авторского инварианта

Превью для статьи

Нечеткое сравнение строк как метод обнаружения и исправления ошибок

Привет! Часто в работе аудитора приходится сталкиваться с задачей text mining, при выполнении которой приходится использовать множество инструментов, в том числе производить поиск ошибок в тексте и их исправление. Предлагаю разобраться с этой задачей.

Превью для статьи

Работа с текстом в табличных данных (BERT + Ridge + CatBoost)

Табличные данные могут быть представлены по-разному: от простейших количественных измерений по каждому наблюдению, до привязки к нему текста или изображений. Данный пост о кейсе обработке текста в «табличках» с помощью BERT + Ridge и CatBoost.

Превью для статьи

Классификация текста c использованием библиотеки pystemmer

Моя задача – классифицировать имеющийся текст, иными словами, выполнить мультиклассовую классификацию данных.

Превью для статьи

Распознавание чисел в прописном виде

Всем привет! Сегодня решаем задачу по распознаванию чисел, записанных прописью, из отсканированных документов. Как известно, для обработки таких данных используется Natasha, но, когда данные недостаточно качественные, она не всегда справляется со своей задачей. В таких случаях на помощь приходит алгоритм, о котором далее пойдёт речь.

Превью для статьи

Найти всё. Text Mining

Всем добрый день! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из текста 300 тыс. документов такой как: номер счета, с которого можно снять средства, разрешенная сумма, период действия. Пример интересующей меня части документа уже здесь

Превью для статьи

Тематическое моделирование с использованием эмбеддингов BERT

Обработка естественного языка одно из востребованных направлений машинного обучения, которое постоянно развивается. В 2018 году компания Google представила новую модель — BERT, сделавшую прорыв в области обработки естественного языка. Несмотря на то, что сейчас у BERT много конкурентов, включая модификации классической модели (RoBERTa, DistilBERT и др.) так и совершенно новые (например, XLNet), BERT всё ещё остается в топе nlp-моделей.

Data News