Как почистить данные, не удаляя лишние знаки

Советуем почитать

Обработка записей разговоров на Python. Поиск пересечений в диалоге

DeepPavlov «из коробки» для задачи NLP на Python

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

Пайплайн для создания классификации текстовой информации

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Оценка качества работы систем Speech to Text

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

04.10.2022, Маркова Виктория, г. Екатеринбург

Как почистить данные, не удаляя лишние знаки

Рассмотрим кейс быстрой очистки данных с использованием токенайзера python-библиотеки Natasha.

Text mining Технологии аудита

Превью для статьи

22.08.2022, Юрьев Константин, Вишняков Александр, г. Москва

Распознавание чисел в прописном виде

Всем привет! Сегодня решаем задачу по распознаванию чисел, записанных прописью, из отсканированных документов. Как известно, для обработки таких данных используется Natasha, но, когда данные недостаточно качественные, она не всегда справляется со своей задачей. В таких случаях на помощь приходит алгоритм, о котором далее пойдёт речь.

Text mining Технологии аудита

Превью для статьи

12.08.2022, Кузнецова Александра, г. Воронеж

Найти всё. Text Mining

Всем добрый день! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из текста 300 тыс. документов такой как: номер счета, с которого можно снять средства, разрешенная сумма, период действия. Пример интересующей меня части документа уже здесь

Text mining Технологии аудита

Превью для статьи

13.07.2022, Сушилов Антон, г. Воронеж

NLP. Проект по распознаванию адресов. Natasha, Pullenti, Stanza

Многие аналитики данных сталкиваются с задачей распознавания адресов, напечатанных на документах. Я выбрал несколько самых популярных библиотек, поддерживающих русский язык, и сравнил, какую же из них использовать — Natasha, Stanza и PullEnti?

Text mining Технологии аудита

Превью для статьи

30.03.2022, Никита Стокалюк, г. Ростов-на-Дону

Применение Yargy-парсера при переводе русскоязычных слов в числа

Проект Natasha хорошо зарекомендовал себя в решении задач NER для работы с русским языком. Он предоставляет возможности для базовой обработки текстов: сегментация на токены и предложения, морфологический и синтаксический анализы, лемматизация и, наконец, распознавание именованных сущностей – аспект, который мы подробно рассмотрим сегодня. Также будет представлено составление своих правил с помощью Yargy-парсера, что необходимо в тех случаях, когда готовые решения показывают низкое качество.

Text mining Технологии аудита

Превью для статьи

28.12.2021, Ольга Сидоркина, г. Самара, Егор Сергеев, г. Нижний Новгород

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Text mining Технологии аудита

Превью для статьи

26.11.2021, Маркова Виктория, г. Екатеринбург

Поиск названия компании с использованием Python и контекстно-свободных грамматик

сложно представить задачу более востребованную и частотную, чем задачу текстового поиска. Упростить ее помогают совершенно разные инструменты и методы, однако универсального решения нет. Как один из оптимальных вариантов в статье представлен парсер библиотеки Natasha для поиска почти любой структурированной информации в тексте.

Text mining Технологии аудита