Время прочтения: 4 мин.
Знакомство с задачей классификации можно начать с Википедии, перейдя по ссылке.
Классификация применяется тогда, когда необходимо выделить схожие объекты из множества различных объектов, для выполнения в дальнейшем каких-либо действий над данными объектами. Например, .pdf документы в составе пакетов документов необходимо сначала классифицировать, что позволит в дальнейшем распознать их и извлечь данные из них.
Компанией ABBYY разработано программное обеспечение ABBYY FlexiCapture 12, которое позволяет достаточно легко справится с задачей классификации .pdf документов.
Более полную информацию о данном продукте можно получить по ссылке.
По другой ссылке выложены различные описания и инструкции. Применим их на практике для создания классификатора.
Итак, для начала работы необходимо запустить Пуск 🡪 Станция Настройки Проектов и создать новый проект Файл 🡪 Создать
Назовем проект Классификация с типом Проект FlexiCapture
Далее необходимо перейти в область Пакеты обучения классификатора
В области Пакеты обучения классификатора создадим новый пакет Файл 🡪 Новый пакет
Назовем пакет Классификатор и загрузим в него изображения Файл 🡪 Загрузить изображения…
Далее каждому загруженному для обучения изображению необходимо установить эталонный класс
В качестве эталонных классов будем использовать определения документов и для этого их потребуется создать Проект 🡪 Определения документов…
Так выглядит окно определений документов после их создания и опубликования
В нашем случае потребуется только два неструктурированных определения График и Анкета. Именно данные изображения были загружены для обучения.
Теперь можно приступать к установлению эталонных классов.
На этапе установки эталонных классов пользоваться предпросмотром обязательно!!
Все что остается сделать далее — выделить изображения с установленными эталонными классами и последовательно сначала запустить обучение, по завершении обучения — запустить классификацию, как показано на картинках ниже.
В результате обучения и классификации должны получиться уверенно классифицированные классы.
Можно подгрузить изображения, не участвующие ранее в обучении, установить для них состояние для тестирования и проверить качество работы классификатора.
Для тестовых изображений эталонный класс тоже установить необходимо, так как оценка об уверенно классифицированных изображениях складывается из сравнения эталонных и результирующих классов
В результате тестирования изображения, не участвующие в обучении, были уверенно классифицированы, что позволяет судить о хорошем качестве созданного классификатора.
Вывод. На практике создали с помощью ABBYY FlexiCapture 12 классификатор, применение которого будет рассмотрено в следующей статье про распознавание и извлечение данных из .pdf документов с помощью ABBYY FlexiCapture 12.