Превью для статьи

Работа с docx c помощью bayoo-docx

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

Превью для статьи

Инструмент Flask. Создание простого веб-интерфейса под конкретные задачи

Знакомство с инструментом Flask. Основные преимущества и методы работы

Превью для статьи

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Превью для статьи

Перевод любых PDF-документов в текст: с распознаванием текста на изображениях и без

В ходе исследовательских проектов с применением NLP-моделей возникает необходимость извлечь текст из всех доступных видов файлов.

Превью для статьи

Поиск текста в документах с использованием Sentence Transformers

Нередко может возникать задача поиска текста не по полному совпадению, а по сходному содержимому, или по выжимке из этого текста. И хотя для решения этих задач существует множество методов, многие из них могут не давать желаемого результата без больших затрат времени и ресурсов на формирование правильной модели.

Превью для статьи

Кастомизация токенизатора Razdel

При работе с текстовыми документами часто возникает необходимость разбить содержимое этого документа на отдельные строки для дальнейшей работы с ними. Для решения этой задачи существуют различные токенизаторы. Однако, документы, обрабатываемые в банковской сфере, очень часто имеют специфический формат и без дополнительной настройки эти токенизаторы плохо справляются со своей работой.

Превью для статьи

Простая обработка возобновляющихся данных или как создать легко воспроизводимый DS проект.

Сегодня уделим внимание инструменту Kedro, который позволяет создавать структурированный проект анализа данных с простой настройкой и воспроизведением в другом рабочем пространстве.

Data News