Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

Работа с docx c помощью bayoo-docx

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

Превью для статьи

Инструмент Flask. Создание простого веб-интерфейса под конкретные задачи

Знакомство с инструментом Flask. Основные преимущества и методы работы

Превью для статьи

Инструменты для решения NER-задач для русского языка

В нашей деятельности довольно часто приходится работать с большими объемами документов, к примеру, исполнительными листами, заявлениями, договорами, из текстов которых нам зачастую необходимо извлечь весьма конкретную информацию: ФИО, даты рождения, наименования должности, паспортные данные, адрес, ИНН и наименование компаний, даты подписания документов и так далее. Всё это относится к задаче распознавания именованных сущностей (NER). Так какие инструменты могут помочь нам в решении данной задачи для русского языка?

Превью для статьи

Перевод любых PDF-документов в текст: с распознаванием текста на изображениях и без

В ходе исследовательских проектов с применением NLP-моделей возникает необходимость извлечь текст из всех доступных видов файлов.

Превью для статьи

Поиск текста в документах с использованием Sentence Transformers

Нередко может возникать задача поиска текста не по полному совпадению, а по сходному содержимому, или по выжимке из этого текста. И хотя для решения этих задач существует множество методов, многие из них могут не давать желаемого результата без больших затрат времени и ресурсов на формирование правильной модели.

Превью для статьи

Кастомизация токенизатора Razdel

При работе с текстовыми документами часто возникает необходимость разбить содержимое этого документа на отдельные строки для дальнейшей работы с ними. Для решения этой задачи существуют различные токенизаторы. Однако, документы, обрабатываемые в банковской сфере, очень часто имеют специфический формат и без дополнительной настройки эти токенизаторы плохо справляются со своей работой.

Data News