Digital skills, Саморазвитие

Создание классификатора с помощью ABBYY FlexiCapture 12

Время прочтения: 4 мин.

Знакомство с задачей классификации можно начать с Википедии, перейдя по ссылке.

Классификация применяется тогда, когда необходимо выделить схожие объекты из множества различных объектов, для выполнения в дальнейшем каких-либо действий над данными объектами. Например, .pdf документы в составе пакетов документов необходимо сначала классифицировать, что позволит в дальнейшем распознать их и извлечь данные из них.

Компанией ABBYY разработано программное обеспечение ABBYY FlexiCapture 12, которое позволяет достаточно легко справится с задачей классификации .pdf документов.

Более полную информацию о данном продукте можно получить по ссылке.

По другой ссылке выложены различные описания и инструкции. Применим их на практике для создания классификатора.

Итак, для начала работы необходимо запустить Пуск 🡪 Станция Настройки Проектов и создать новый проект Файл 🡪 Создать

Назовем проект Классификация с типом Проект FlexiCapture

Далее необходимо перейти в область Пакеты обучения классификатора

В области Пакеты обучения классификатора создадим новый пакет Файл 🡪 Новый пакет

Назовем пакет Классификатор и загрузим в него изображения Файл 🡪 Загрузить изображения…

Далее каждому загруженному для обучения изображению необходимо установить эталонный класс

В качестве эталонных классов будем использовать определения документов и для этого их потребуется создать Проект 🡪 Определения документов…

Так выглядит окно определений документов после их создания и опубликования

В нашем случае потребуется только два неструктурированных определения График и Анкета. Именно данные изображения были загружены для обучения.

Теперь можно приступать к установлению эталонных классов.

На этапе установки эталонных классов пользоваться предпросмотром обязательно!!

Все что остается сделать далее — выделить изображения с установленными эталонными классами и последовательно сначала запустить обучение, по завершении обучения — запустить классификацию, как показано на картинках ниже.

В результате обучения и классификации должны получиться уверенно классифицированные классы.

Можно подгрузить изображения, не участвующие ранее в обучении, установить для них состояние для тестирования и проверить качество работы классификатора.

Для тестовых изображений эталонный класс тоже установить необходимо, так как оценка об уверенно классифицированных изображениях складывается из сравнения эталонных и результирующих классов

В результате тестирования изображения, не участвующие в обучении, были уверенно классифицированы, что позволяет судить о хорошем качестве созданного классификатора.

Вывод. На практике создали с помощью ABBYY FlexiCapture 12 классификатор, применение которого будет рассмотрено в следующей статье про распознавание и извлечение данных из .pdf документов с помощью ABBYY FlexiCapture 12.

Советуем почитать