Превью для статьи

Поиск дубликатов изображений с использованием Computer Vision

Как найти дубликаты изображений среди нескольких тысяч файлов, если они представлены разных форматах? Делюсь опытом использования Computer Vision для поиска дубликатов изображений документов

Превью для статьи

Использование OpenCV(CV2) и PyTesseract для автоматизации процесса распознавания некачественных и/или неровных сканов PDF. Реализация поиска по ключевым словам

Рассмотрим задачу, есть папка с кучей файлов PDF, а требуется определенная информация из этих документов, да еще и в текстовом виде в одном документе…
Поделись своими идеями в комментариях к статье

Превью для статьи

Сравнение использования PyTesseract и PDF модулей и библиотек для распознавания сканов PDF

Что делать если вы столкнулись с некачественным сканом?

Превью для статьи

Парсинг и аудит

Как немного упростить процесс извлечения и обработки данных разного формата с вебсайтов при помощи Python? Вам не досталось API? Нужно всего лишь иметь среду разработки, Python и pip