ABBYY FlexiCapture Studio

ABBYY FlexiCapture Studio - это новый продукт компании ABBYY, основанный на технологии FlexiCapture, для разработчиков, интеграторов и VAR 'ов. Используя ABBYY FlexiCapture Studio совместно с системой ввода форм ABBYY FormReader 6.5 или инструментарием разработчика ABBYY FineReader Engine 7.1, вы сможете создать для ваших клиентов решение для ввода гибких форм, например, накладных, счетов, шапок входящих документов и т.д.

Технология ABBYY FlexiCapture построена на принципах IPA (Integrity, Purposefulness, Adaptability, то есть целостность, целенаправленность и адаптивность), на основе которых действуют живые "распознаватели". Чтобы "научить" программу FormReader или SDK FineReader Engine находить и идентифицировать поля на гибкой форме, создаётся "инструкция" - описание, как искать поля на форме, опираясь на названия полей или другие признаки (тип единиц, пояснительная надпись). Это описание гибкой формы называется FlexiLayout.

ABBYY FlexiCapture Studio - гибкий инструмент, который позволяет разрабатывать FlexiLayout на двух уровнях: через диалоги программы и с использованием мета-языка FlexiCapture. Поэтому разработать шаблон сможет даже не имеющий навыков программирования специалист.

Flexi Layout состоит из блоков и элементов. Блоки - это описания полей, из которых будет вводится информация в FormReader, а элементы - объекты на форме, на которые опирается программа при поиске полей.

Расположение каждого блока задается через окружающие его элементы: текст, рисунки, разделители, свободные участки. На поле ищут все похожие объекты, для каждого варианта оценивается степень соответствия описанию и выбирается наилучший.

Уникальный алгоритм поиска по совокупности элементов (вместо перебора каждого элемента в отдельности, как это происходит в других программных продуктах данного класса) позволяет FlexiCapture Studio резко ограничить время обработки документов и снизить вероятность ошибки при выборе элементов.

Протестированное описание гибкой формы FlexiLayout переносится в программу FormReader. ABBYY FormReader со встроенной технологией FlexiCapture Studio справится с вводом любой гибкой формы, в том числе с формой сложной структуры, с большим количеством полей.

ABBYY FlexiCapture Studio сделал доступной мощную технологию ABBYY для описания структуры гибких форм, которая ранее использовалась только экспертами ABBYY в заказных проектах. В короткие сроки VAR'ы и интеграторы смогут с его помощью создать адаптированное под задачи и типы документов решение "на заказ" или разработать тиражируемое решение для ввода гибких форм, например, страховых, платёжных, складских или медицинских документов.

Залогом надежности и высочайшего качества технологии FlexiCapture служат системы ввода данных, созданные на её основе и успешно работающие в крупных компаниях и органах государственного управления, а также программный продукт для ввода платёжных документов FineReader Bank, который используют более 500 российских банков.

ABBYY FlexiCapture - мощная технология для ввода гибких форм

От бумажного хаоса к порядку

Задумывались ли вы, сколько человеко-часов теряет ваша компания ежедневно, чтобы привести в порядок входящий поток бумажных документов? Ввод вручную данных со счетов и чеков, обработка квитанций и заказов, сортировка писем и договоров, разбор бухгалтерских и финансовых документов - вот куда тратятся драгоценные ресурсы компании.

Эти схожие по содержанию документы приходят в компанию из разнообразных источников, и поэтому бывают по-разному структурированы и оформлены, одни и те же поля (дата, название компании, сумма, адрес и т.д.) расположены на них не одинаково. Специалисты называют такие документы неструктурированными, или гибкими формами.

Tехнология ABBYY FlexiCapture, основанная на многолетних исследованиях компании ABBYY и опыте реализации крупных проектов, позволяет вводить данные с гибких форм автоматически. Чтобы организовать обработку гибких форм в своей компании, вам понадобится сканер и программа ввода форм ABBYY FormReader с технологией FlexiCapture.

Почти как человек: ввод гибких форм с помощью технологии ABBYY FlexiCapture

Как действует человек, когда вводит информацию с гибких форм? Он просматривает документ и по названию поля или другим признакам (тип единиц, пояснительная надпись) находит нужные данные и переносит их в базу данных или файл. Так же работает и программа FormReader с технологией FlexiCapture.

Технология ABBYY FlexiCapture использует принципы IPA (Integrity, Purposefulness, Adaptability, то есть целостность, целенаправленность и адаптивность), на основе которых действуют живые "распознаватели". Чтобы "научить" программу FormReader находить и идентифицировать поля на гибкой форме, создаётся "инструкция" - описание, как искать поля на форме, опираясь на названия полей или другие признаки (тип единиц, пояснительная надпись). Это описание гибкой формы называется FlexiLayout. Для разработки FlexiLayout предназначено приложение ABBYY FlexiCapture Studio, входящее в состав FormReader.

ABBYY FlexiCapture Studio - гибкий инструмент, который позволяет разрабатывать FlexiLayout на двух уровнях: через диалоги программы и с использованием мета-языка FlexiCapture. Поэтому разработать шаблон сможет даже не имеющий навыков программирования специалист.

Flexi Layout состоит из блоков и элементов. Блоки - это описания полей, из которых будет вводится информация в FormReader, а элементы - объекты на форме, на которые опирается программа при поиске полей.

Расположение каждого блока задается через окружающие его элементы - текст, рисунки, разделители, свободные участки. На поле ищут все похожие объекты, для каждого варианта оценивается степень соответствия описанию и выбирается наилучший.

Уникальный алгоритм поиска по совокупности элементов (вместо перебора каждого элемента в отдельности, как это происходит в других программных продуктах данного класса) позволяет FlexiCapture Studio резко ограничить время обработки документов и снизить вероятность ошибки при выборе элементов.

Протестированное описание гибкой формы FlexiLayout переносится в программу FormReader. ABBYY FormReader со встроенной технологией FlexiCapture Studio справится с вводом любой гибкой формы, в том числе со сложной структурой и большим количеством полей.

Новое в версии

Поддержка таблиц

В FlexiCapture Studio 1.5 появилась поддержка таблиц. Это обеспечивает быстрый и простой ввод данных из табличных форм, которые часто встречаются в гибких формах и документах: счетах, заказах и т.д.

Очистка фона

Реализована новая функция - очистка фона в заголовках табличных элементов.

Выбор нескольких языков для предварительного распознавания

Теперь в свойствах предварительного распознавания можно выставить смешанный тип языков распознавания, например, русско-английский.

Новые типы элементов

Поддержаны новые типы элементов: телефон, вид валюты.

Значительно улучшена справочная система 

В Справку FlexiCapture Studio добавлены детально разобранные примеры и понятные описания.

Возможности

Интерфейс

  • Удобная визуальная среда для создания, тестирования и редактирования описания структуры гибких форм FlexiLayout.
  • Визуализация процесса разработки гибкого шаблона FlexiLayout: выделение цветом блоков и элементов в зависимости от типа и состояния (найден/не найден), возможность просматривать элементы и блоки в режиме включения/отключения.
  • Дерево для просмотра и редактирования блоков и элементов FlexiLayout, их свойств.
  • Дерево гипотез с отображением качества гипотез и связи элементов дерева гипотез и объектов на форме.
  • Варьируемые размеры и взаимное месторасположение окон, опция drag&drop для перемещения и копирования элементов гибкого шаблона FlexiLayout.

Технологии

  • Уникальная технология описания структуры гибких форм, результат многолeтних исследований и практического опыта компании ABBYY.
  • Использование в процессе разработки FlexiLayout признанных лучшими в мире технологий распознавания ABBYY.

Проект и изображения форм

  • Импорт изображений форм в формате TIFF, JPEG, PCX, DCX, PNG, BMP и PDF.
  • Предварительное распознавание документа для определения всех объектов типа текст, разделитель, баркод, рисунок.
  • Распознавание печатного текста на 172 языках, написанного печатными буквами от руки на 91 языке, а также всех популярных видов баркодов (EAN13, EAN8, Check Code 3, Check Interleaved 25, Code 39, Code 128, IATA-25, Codabar, UPCA, UPCE, Code93, UCC-128. )

Объекты FlexiLayout

  • Два уровня описания структуры гибкого шаблона FlexiLayout - уровень элементов и уровень блоков.
  • Пять типов блоков для ввода данных в ABBYY FormReader или ABBYY FineReader Engine: текстовые блоки, баркоды, метки, картинки и таблицы. 
  • Использование простых элементов (статический текст, разделитель, просвет, штрихкод, цепочка символов, цепочка слов, объект изображения, дата) и составных элементов (сочетание (AND-элемент)).

Создание FlexiLayout

  • Задание характеристик элемента в зависимости от типа. Указание возможных значений или диапазона значений этих характеристик.
  • Определение геометрического расположения элемента на форме с использованием абсолютных ограничений на координаты элемента или правил расположения элементов друг относительно друга.
  • Возможность продвинутого описания элементов с помощью языка FlexiCapture, который позволяет определять свойства элемента с использованием условных операторов, а также управлять процессом поиска элементов, например, задать условие "не искать данный элемент" или "прекратить наложение гибкого шаблона FlexiLayout".
  • Установка развитых взаимосвязей между элементами для определения их взаимного расположения, например, задание области поиска одного элемента относительно другого (справа, слева и т.д.), указание ближайшего элемента или отмена поиска одного из взаимоисключающих друг друга элементов при нахождении другого и т.д.
  • Два способа определения месторасположения блока - через указание совпадающего с ним по расположению элемента или с помощью мета-языка FlexiCapture.
  • Создание гипотезы - предположения, что найденные элементы соответствует заданному описанию - по совокупности элементов, а не по отдельному полю.
  • Расчет качества гипотезы (оценка соответствия найденного элемента описанию), учёт штрафа за невыполнение условий поиска.
  • Использование понятия нулевой, то есть ненайденной, гипотезы. Позволяет сделать присутствие элемента на изображении необязательным или, наоборот, задать условие, что если элемент не находится, FlexiLayout не накладывается, а значит, этот документ относится к другому типу.
  • Дерево гипотез для сравнения результатов поиска элементов и выбора наилучшего по качеству гипотезы. Визуализация связи элементов гибкого шаблона FlexiLayout и вариантов поиска в дереве гипотез.
  • Классификация и визуальное отображение гипотез в зависимости от типа элемента и результата поиска (гипотеза найдена/не найдена).

Отладка FlexiLayout

  • Проверка корректности FlexiLayout - сохраняется ли иерархия элементов (описание элемента должно ссылаться только на элементы, расположенные выше по дереву) и правильно ли написаны выражения с помощью языка описания гибких форм FlexiCapture.
  • Сравнение результатов наложения FlexiLayout с эталонной разметкой - отмеченным вручную реальным расположением блоков, поиск ошибочно найденных и ошибочно ненайденных областей
  • Возможность сохранить результаты текущего наложения в качестве эталонной разметки и, поправив ошибки наложения, получить "правильный" вариант эталонной разметки для этой страницы быстрее, чем при разметке вручную.
  • Пошаговый процесс усовершенствования FlexiLayout, возможность добавить "свежие" образцы форм и продолжить редактирование и отладку, а также сохранить FlexiLayout и при необходимости к нему вернуться.

Экспорт FlexiLayout

  • Экспорт FlexiLayout из FlexiCapture Studio в системы FormReader 6.5 и FineReader 7.1 Engine в виде *.afl -файла.

Защита программы

  • Защита программы с помощью аппаратного и софтверного ключей.

Как работает ABBYY FlexiCapture Studio

Создание шаблона происходит на двух уровнях - через диалоги программы (dialog boxes) и с использованием языка описания гибких форм FlexiCapture. Поэтому разработать шаблон сможет даже специалист, не имеющий навыков программирования.

Пользователь "обучает" программу искать нужные поля. Для этого в терминах FlexiCapture Studio создается описание структуры гибких форм - FlexiLayout, в котором содержится информация по расположению каждого поля формы через задание его окружения - стационарного текста, рисунков, разделителей, свободных участков и т.д. Опираясь на FlexiLayout, программа находит все похожие объекты и выбирает вариант, в наибольшей степени совпадающий с описанием. Если поля найдены правильно, гибкий шаблон FlexiLayout переносится в программу FormReader или FineReader Engine.

Итак, процесс разработки состоит из нескольких этапов: создание проекта, описание блоков и элементов, отладка FlexiLayout, экспорт FlexiLayout в FormReader или FineReader Engine.

Создание проекта

Разработка описания структуры гибких форм начинается с создания проекта, в котором будет храниться сам FlexiLayout и образцы форм, для которых FlexiLayout создается. Пользователю понадобится несколько десятков образцов. Чем больше количество форм, на которых протестирован FlexiLayout, тем лучше будут результаты их ввода с помощью FormReader или FineReader Engine.

Далее изображения распознаются в ускоренном режиме, на них автоматически выделяются объекты: текст, разделители, картинки, штрих-коды. Создается "карта" каждого изображения, все выделенные объекты можно посмотреть на странице одновременно или выборочно по типам. Пользователь проверяет качество распознавания текста, определяет, какие элементы встречаются на изображениях достаточно стабильно, чтобы можно было использовать их как отправную точку для поиска других элементов. Кроме того, пользователю желательно выбрать наиболее типичное, эталонное изображение, на котором есть характерные элементы и все (или большинство) полей и начать разработку гибкого описания FlexiLayout именно с него.

Описание блоков и элементов

На эталонной странице выбираются поля, из которых будут вводиться данные в программе FormReader, они определяются как блоки, им присваивается имя и выбирается тип блока. Для каждого блока пользователь старается обнаружить опорные элементы, которые могли бы служить ориентирами при поиске поля.

Но ведь и сами элементы надо найти! Для каждого из них задается область поиска в координатах или относительно других элементов, значения характеристик элемента (в зависимости от типа) или их диапазон, разрешённые или запрещённые символы (для тестовых блоков). Между элементами устанавливается взаимосвязь, например, через определение области поиска одного элемента (справа, сверху и т.д.) относительно другого, через указание ближайшего элемента, через объединение в составной элемент AND.

Созданный FlexiLayout нужно проверить - если не соблюдается иерархия элементов (описание элемента должно ссылаться только на элементы, расположенные выше по дереву) или допущена ошибка в использовании языка гибких шаблонов FlexiCapture, программа предупредит об этом.

Программа, основываясь на описании, находит на изображении несколько (число ограничивает пользователь) возможных вариантов расположения элемента. Для каждого варианта строится гипотеза - предположение, что найденный элемент соответствует искомому. Степень соответствия описания и найденного элемента оценивается качеством гипотезы, которое рассчитывается с учетом штрафа за невыполнение условий поиска и изменяется в диапазоне от 0 до 1. Гипотеза с наибольшим значением показателя качества считается правильной. Если выбор верен, пользователь может приступать к описанию других элементов и блоков.

В итоге мы получаем FlexiLayout для первого выбранного документа - описание того, какие существуют блоки и как их найти, опираясь на элементы. Если FlexiLayout без ошибок накладывается на эталонную страницу, его можно тестировать на всём массиве изображений.

Отладка гибкого шаблона

С большой вероятностью полученный гибкий шаблон FlexiLayout не будет одинаково хорош для всех изображений. Его можно совершенствовать. FlexiCapture Studio предлагает для этого продвинутые механизмы.

Так, пользователь может создать эталонную разметку для каждого образца, выделив реальное расположение блоков. Программа цветом показывает отклонения при сравнении эталонной разметки с результатом наложения FlexiLayout, а также подсвечивают ненайденные объекты. В программе существует классификация гипотез в зависимости от типа элементов и статуса гипотезы (найдена/не найдена). Каждому типу гипотезы соответствует особый значок, все гипотезы изображаются в виде дерева, что позволяет пользователю быстро сориентироваться в предложенных программой вариантах.

Перед тем как приступить к внесению изменений, FlexiLayout и результаты его наложения сохраняются; у пользователя всегда будет возможность к ним вернуться. Измененный FlexiLayout вновь тестируется сначала на одной странице, затем на всём массиве. В результате получаем версию FlexiLayout, обеспечивающую максимально качественное наложение для тестируемого массива.

 

Путь к дальнейшему улучшению качества наложения лежит через "тренировку" FlexiLayout на максимально возможном количестве документов. Для этого в пакет добавляются новые страницы, и процедура отладки изменений происходит снова. До тех пор, пока пользователь не будет удовлетворён результатом.

Экспорт описания FlexiLayout

Итоговая, наиболее удачная версия FlexiLayout экспортируется в файл с расширением *.afl и переносится в ABBYY FormReader или ABBYY FineReader Engine. Пользователь получает качественное кастомизированное решение для потокового ввода гибких форм с высокой точностью.

Системные требования

  • ПК с процессором Pentium с тактовой частотой 200 МГц или выше для Windows 2000/NT 4.0; 350 МГц или выше - для Windows XP.
  • Операционная система: Microsoft Windows XP, Microsoft Windows 2000, Microsoft Windows NT 4.0 (SP6 или выше).
  • Размер оперативной памяти: для Windows ХР - 128 Мб, для Windows 2000 - 64 Мб; для Windows NT 4.0- 32 Мб.
  • 150 Мб свободного места на жёстком диске для установки и работы системы в минимальной конфигурации.
  • Сканер с поддержкой протоколов сканирования TWAIN или ISIS.
  • Браузер Microsoft Internet Explorer 5.0 или выше.
  • Мышь или другое аналогичное устройство.
  • Дисковод для компакт-дисков.
  • SVGA-монитор (разрешение 800х600 или выше).
  • USB-порт (требуется Windows XP/2000) для установки аппаратного ключа защиты.

Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=6974