Время прочтения: 4 мин.

В предыдущей статье “Создание классификатора с помощью ABBYY FlexiCapture 12” было рассказано как создать классификатор, необходимый для распознавания и извлечения данных из .pdf документов. Прежде, чем переходить к распознаванию и извлечению данных с его помощью, рассмотрим еще одну очень важную тему – гибкие описания, которые не менее важны и которые тоже нужно создать, так как они, как и классификатор, помогут нам распознать и извлечь данные из .pdf документов.

Создать гибкое описание можно с помощью программного продукта FlexiLayout Studio.

Более полную информацию о гибких описаниях и программном продукте FlexiLayout Studio можно получить по ссылке.

Мы же перейдем к практике и создадим гибкое описание для одного из документов.

Для начала работы необходимо запустить Пуск à FlexiLayout Studio и создать новый проект c типом ABBYY FlexiLayout Project Files (*.fsp), назовем его anketa

Загрузим изображения анкет* в проект Batch à Add Images…

* По задумке автора пакеты .pdf документов состоят из двух документов: из анкет и графиков. Извлечь информацию требуется только из одного документа в составе пакета документов, из анкеты, поэтому гибкое описание будем создавать именно для анкеты. Т.е. если данные извлекать не требуется, то гибкое описание создавать не нужно, и в этом случае достаточно только классифицировать документ.

Далее добавим статичные элементы FlexiLayout à Elements à Add Element à Static Text, которые будут выполнять роль “якорей” и рядом с которыми будут определяться строковые элементы с данными для извлечения.

Каждый из статичных элементов после выполнения команды FlexiLayout à Match должен устойчиво обнаруживаться на загруженных изображениях, так как показано на рисунке ниже, особенно если для них было установлено свойство Required element.

Далее создадим строковые элементы FlexiLayout à Elements à Add Element à Character String для извлечения данных.

Каждый из строковых элементов после выполнения команды FlexiLayout à Match также должен устойчиво обнаруживаться на загруженных изображениях (см. рисунок ниже).

Важно!!! Для устойчивого обнаружения строковых элементов необходимо настроить свойства Relations по отношению к статичным элементам.

Далее необходимо добавить текстовые блоки FlexiLayout à Add Block à Text, которые будут принимать извлекаемые из строковых элементов данные.

Текстовые блоки нужно связать со строковыми элементами, указав последние в качестве источника данных для блоков.

Все блоки также должны устойчиво обнаруживаться на изображениях после выполнения команды FlexiLayout à Match.

На этом этапе гибкое описание можно считать готовым, теперь его можно выгрузить в файл anketa с расширением .afl

На этом этапе гибкое описание можно считать готовым, теперь его можно выгрузить в файл anketa с расширением .afl

Будем использовать данное гибкое описание для создания определения документа, в проекте для распознавания документов с помощью ABBYY FlexiCapture 12, но это уже тема следующей статьи.

Вывод. На практике создали с помощью FlexiLayout Studio гибкое описание, применение которого будет рассмотрено в следующей статье про распознавание и извлечение данных из .pdf документов с помощью ABBYY FlexiCapture 12.