Превью для статьи

Использование Insightface для быстрого поиска и сравнения лиц на изображениях

Рассмотрю кейс поиска «близнецов» в паспортных данных, которые были размещены в pdf-файлах, насчитывающих десятки, а порой и сотни страниц

Превью для статьи

Подходы к получению данных с сайта на примере наш.дом.рф

При оценке состояния компании-застройщика немаловажную роль играет информация, которую можно получить из открытых источников, в том числе с сайта наш.дом.рф. Однако, большой объём необходимых данных означает, что необходима автоматизация задачи. В посте я рассмотрю, с какими сложностями я столкнулся и какие подходы позволили ускорить работу программы.

Превью для статьи

Извлечение таблиц из pdf с помощью camelot

Как распознать большую таблицу со сложной структурой

Превью для статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др. Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы […]

Превью для статьи

Извлечение изображений из PDF с помощью Python

Как очистить изображения из файла PDF, сохраняя их качество?

Превью для статьи

Сравнение использования PyTesseract и PDF модулей и библиотек для распознавания сканов PDF

Что делать если вы столкнулись с некачественным сканом?