Превью для статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др. Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы […]

Превью для статьи

Экспресс-NER. Или что делать если на нейронку нет времени?

Хотите быстро обработать текст и выделить из него названия достопримечательностей, географических объектов? А может Вы ищете в тексте что-то более специфическое: сумму денежного перевода и валюту, в которой он был совершён? Для решения этой задачи можно написать и обучить LSTM нейронную сеть, но что если на это нет времени? Расскажем о нескольких библиотеках Python, которые помогут справиться с задачей в сжатые сроки.

Превью для статьи

Natasha: инструмент для извлечения именованных сущностей из русских текстов

В ходе аудита, при работе с данными, возникают задачи разного рода – от примитивной работы в MS Excel до серьёзных алгоритмических задач программирования. Как извлечь структурированную информацию из текста на русском языке? Знакомы ли вы с Natasha?