Превью для статьи

Применение Yargy-парсера при переводе русскоязычных слов в числа

Проект Natasha хорошо зарекомендовал себя в решении задач NER для работы с русским языком. Он предоставляет возможности для базовой обработки текстов: сегментация на токены и предложения, морфологический и синтаксический анализы, лемматизация и, наконец, распознавание именованных сущностей – аспект, который мы подробно рассмотрим сегодня. Также будет представлено составление своих правил с помощью Yargy-парсера, что необходимо в тех случаях, когда готовые решения показывают низкое качество.

Превью для статьи

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Превью для статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др. Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы […]

Превью для статьи

NER для русского языка в Spacy 3: удобно и легко

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков […]

Превью для статьи

Инструмент увеличения скорости обработки больших массивов данных

Практический пример создания клиент-серверного приложения для распознавания именованных сущностей (NER).

Превью для статьи

Что должно быть в акте проверки? Аудитору подскажет модель

Как решать нетривиальные задачи с помощью ds-алгоритмов и библиотек DeepPavlov + natasha читаем в статье

Превью для статьи

Экспресс-NER. Или что делать если на нейронку нет времени?

Хотите быстро обработать текст и выделить из него названия достопримечательностей, географических объектов? А может Вы ищете в тексте что-то более специфическое: сумму денежного перевода и валюту, в которой он был совершён? Для решения этой задачи можно написать и обучить LSTM нейронную сеть, но что если на это нет времени? Расскажем о нескольких библиотеках Python, которые помогут справиться с задачей в сжатые сроки.

Data News