Text mining Python
Картинка анонса

Поиск и лемматизация ФИО без Наташ

Очень часто в задачах текст майнинга требуется реализовать вытаскивание имён, года рождения, паспортных данных и т.п. из объемного текста. Для получения ФИО из текста существует библиотека “Natasha”. Но когда имена в тексте попадаются “нестандартные” и очень редкие, библиотека, к сожалению, пасует.

Text mining Python
Картинка анонса

Поиск и лемматизация ФИО без Наташ

Очень часто в задачах текст майнинга требуется реализовать вытаскивание имён, года рождения, паспортных данных и т.п. из объемного текста. Для получения ФИО из текста существует библиотека “Natasha”. Но когда имена в тексте попадаются “нестандартные” и очень редкие, библиотека, к сожалению, пасует.

NLP Machine Learning
Картинка анонса

Сравнение алгоритмов векторизации в NLP

В современном мире, где объем информации растёт с каждым днём, важно уметь ее структурировать, разделять и анализировать внутри групп. Например, ежедневно пользователи социальных сетей получают 1 209 600 новых данных. Так, проблемой разбиения данных занимается классификация – она помогает сократить время на обработку данных и их группировку. Но вручную обрабатывать огромные объемы данных считается уже моветоном, ведь если правильно подать информацию компьютеру, он сможет сделать работу в несколько раз быстрее. В данной статье мы продемонстрируем одни из известных видов классификации текстов и покажем, насколько важен выбор алгоритма для получения определенных конечных результатов.

Python Machine Learning
Картинка анонса

Natasha и поиск ФИО в текстовых документах

В современном мире все организации, которые так или иначе работают с персональными данными клиентов, сталкиваются с проблемой как эти данные обезопасить от случайного или намеренного обнародования.

Классификация Machine Learning
Картинка анонса

Что должно быть в акте проверки? Аудитору подскажет модель

Как решать нетривиальные задачи с помощью ds-алгоритмов и библиотек DeepPavlov + natasha читаем в статье

NLP Machine Learning
Картинка анонса

Natasha: инструмент для извлечения именованных сущностей из русских текстов

В ходе аудита, при работе с данными, возникают задачи разного рода – от примитивной работы в MS Excel до серьёзных алгоритмических задач программирования. Как извлечь структурированную информацию из текста на русском языке? Знакомы ли вы с Natasha?