Превью для статьи

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Превью для статьи

Доработка модуля поиска дат в Natasha

Не так давно мы рассматривали способы доработки библиотеки для разбиения текста на предложения, теперь же поговорим о поиске дат в этих предложениях.

Превью для статьи

Кастомизация токенизатора Razdel

При работе с текстовыми документами часто возникает необходимость разбить содержимое этого документа на отдельные строки для дальнейшей работы с ними. Для решения этой задачи существуют различные токенизаторы. Однако, документы, обрабатываемые в банковской сфере, очень часто имеют специфический формат и без дополнительной настройки эти токенизаторы плохо справляются со своей работой.

Превью для статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др. Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы […]

Превью для статьи

Поиск и лемматизация ФИО без Наташ

Очень часто в задачах текст майнинга требуется реализовать вытаскивание имён, года рождения, паспортных данных и т.п. из объемного текста. Для получения ФИО из текста существует библиотека “Natasha”. Но когда имена в тексте попадаются “нестандартные” и очень редкие, библиотека, к сожалению, пасует.

Превью для статьи

Сравнение алгоритмов векторизации в NLP

В современном мире, где объем информации растёт с каждым днём, важно уметь ее структурировать, разделять и анализировать внутри групп. Например, ежедневно пользователи социальных сетей получают 1 209 600 новых данных. Так, проблемой разбиения данных занимается классификация – она помогает сократить время на обработку данных и их группировку. Но вручную обрабатывать огромные объемы данных считается уже моветоном, ведь если правильно подать информацию компьютеру, он сможет сделать работу в несколько раз быстрее. В данной статье мы продемонстрируем одни из известных видов классификации текстов и покажем, насколько важен выбор алгоритма для получения определенных конечных результатов.

Превью для статьи

Natasha и поиск ФИО в текстовых документах

В современном мире все организации, которые так или иначе работают с персональными данными клиентов, сталкиваются с проблемой как эти данные обезопасить от случайного или намеренного обнародования.

Data News