NLP Machine Learning
Картинка анонса

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др. Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы […]

NLP Machine Learning
Картинка анонса

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др. Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы […]

NLP Machine Learning
Картинка анонса

NER для русского языка в Spacy 3: удобно и легко

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной задачей для славянских языков, где синтаксические зависимости часто маркируются морфологическими чертами, нежели определенным порядком словоформ. Поэтому NER сложен для этих языков […]

Подготовка данных Machine Learning
Картинка анонса

Инструмент увеличения скорости обработки больших массивов данных

Практический пример создания клиент-серверного приложения для распознавания именованных сущностей (NER).

Классификация Machine Learning
Картинка анонса

Что должно быть в акте проверки? Аудитору подскажет модель

Как решать нетривиальные задачи с помощью ds-алгоритмов и библиотек DeepPavlov + natasha читаем в статье

Нейронные сети Анализ данных
Картинка анонса

Экспресс-NER. Или что делать если на нейронку нет времени?

Хотите быстро обработать текст и выделить из него названия достопримечательностей, географических объектов? А может Вы ищете в тексте что-то более специфическое: сумму денежного перевода и валюту, в которой он был совершён? Для решения этой задачи можно написать и обучить LSTM нейронную сеть, но что если на это нет времени? Расскажем о нескольких библиотеках Python, которые помогут справиться с задачей в сжатые сроки.

NLP Machine Learning
Картинка анонса

Natasha: инструмент для извлечения именованных сущностей из русских текстов

В ходе аудита, при работе с данными, возникают задачи разного рода – от примитивной работы в MS Excel до серьёзных алгоритмических задач программирования. Как извлечь структурированную информацию из текста на русском языке? Знакомы ли вы с Natasha?