Превью для статьи

Использование Insightface для быстрого поиска и сравнения лиц на изображениях

Рассмотрю кейс поиска «близнецов» в паспортных данных, которые были размещены в pdf-файлах, насчитывающих десятки, а порой и сотни страниц

Превью для статьи

Из PDF в Excel, когда не все так просто…

Представьте ситуацию, когда вам необходимо провести комплексный анализ некоторого количества пакетов документов по определенной теме (например, различные виды договоров, счетов, актов и т.д.), при этом шаблоны документов и форматы документов в этих пакетах используются разные. В данной публикации мы предлагаем рассмотреть подходы по решению подобной задачи.

Превью для статьи

ML-подходы по поиску похожих изображений

Компьютерное зрение (computer vision, CV) – активно развивающаяся научная область, связанная с анализом изображений и видео. В последнее время данному направлению уделяется большое внимание, так как CV позволяет решать множество задач, таких как: детекцию объектов, классификацию изображений, распознавание лиц и т.д., которые в свою очередь применяются в разных сферах жизни от мобильных приложений для наложения масок на лицо во время звонка до построения систем безопасности, поиска преступников и мошенников

Превью для статьи

Извлечение таблиц из pdf с помощью camelot

Как распознать большую таблицу со сложной структурой

Превью для статьи

Перевод любых PDF-документов в текст: с распознаванием текста на изображениях и без

В ходе исследовательских проектов с применением NLP-моделей возникает необходимость извлечь текст из всех доступных видов файлов.

Превью для статьи

Поиск адресов в «испорченных» данных

Для проведения проверки необходимо было установить адреса нескольких сотен объектов недвижимости. Проблема в том, что адреса были написаны в разных частях документов, документы имели различные форматы, и сам адрес также мог быть написан разнообразными способами.
Да, существует возможность использовать для данной задачи различные библиотеки и сервисы, но источники данных с информацией об этих объектах должны быть упорядочены и однородны. Можно ли используя минимум ресурсов решать подобные задачи? Можно! Рассмотрим решение на основе Python 3, Pandas и нескольких библиотек для конвертации файлов в датафреймы.

Превью для статьи

Извлечение изображений из PDF с помощью Python

Как очистить изображения из файла PDF, сохраняя их качество?