Превью для статьи

Перевод любых PDF-документов в текст: с распознаванием текста на изображениях и без

В ходе исследовательских проектов с применением NLP-моделей возникает необходимость извлечь текст из всех доступных видов файлов.

Превью для статьи

Чтение текстовых PDF файлов в Python

В работе мы часто сталкиваемся с материалами в формате текстовых PDF файлов. Сегодня поделимся с вами скриптом, который поможет преобразовать PDF формат. В нашем случае задача заключалась в том, чтобы найти ключевые объекты в содержимом файлов.

Превью для статьи

Использование OpenCV(CV2) и PyTesseract для автоматизации процесса распознавания некачественных и/или неровных сканов PDF. Реализация поиска по ключевым словам

Рассмотрим задачу, есть папка с кучей файлов PDF, а требуется определенная информация из этих документов, да еще и в текстовом виде в одном документе…
Поделись своими идеями в комментариях к статье

Превью для статьи

Как извлечь таблицы из PDF-файлов.

Друзья, на сайте Newtechaudit.ru уже были представлены примеры обработки PDF-файлов с помощью Python-библиотек. Я же предлагаю сфокусироваться на более узкой задаче, которую мне пришлось решать — извлечение таблиц с данными из PDF-файлов. Я выполнил эту процедуру это в Python с помощью библиотеки Camelot. Camelot дает возможность настроить извлечение таблиц в том случае, если невозможно получить […]

Data News