ABBYY Recognition Server представляет собой высокопроизводительное серверное решение для автоматизации процессов оптического распознавания и конвертирования документов в/из формата PDF в промышленных масштабах. Благодаря серверной архитектуре это приложение особенно эффективно для задач, связанных с обработкой средних и больших объёмов документов.
Архитектура ABBYY Recognition Server позволяет обеспечить не только скорость и высокое качество обработки массивов изображений, но и централизацию управления процессами, масштабируемость, гибкость, надежность потоковой обработки и интегрируемость с другими приложениями.
Возможности
Распознавание и конвертация
Высокое качество распознавания и восстановления оформления документа
Поддерживает до 190 языков распознавания печатного текста, включая языки на основе латинского, греческого, армянского и кириллического алфавитов.
Распознавание многоязычных документов.
Режим быстрого распознавания увеличивает скорость обработки изображений хорошего качества в 2-2,5 раза.
Модуль FineReader XIX обеспечивает распознавания текстов, напечатанных в период с 1600 по 1937 на английском, французском, итальянском, немецком и испанском языках. FineReader XIX поддерживает такие специальные шрифты, как Fraktur, Schwabacher и большинство готических шрифтов.
Модуль CJK обеспечивает распознавание документов на 4 азиатских языках: китайского (традиционная и упрощённая орфография), японского и корейского. Результаты можно сохранять в следующих форматах: DOC, RTF, XLS, HTML, TXT, CSV, PDF (дополнительно), XML (дополнительно).
Поддержано распознавание различных типов текста: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
Преобразование PDF-файлов
При обработке PDF-файлов Recognition Server определяет наличие текстового слоя и его целостность. Подобный подход обеспечивает значительно более быстрое и качественное преобразование PDF-файлов.
Осуществляется преобразование изображений в файлы формата PDF с возможностью полнотекстового поиска, поддерживает создание PDF-файлов с тэгами.
Поддержана возможность сохранения в создаваемых PDF-файлах различных метаданных: закладок, гиперссылок, кросс-ссылок и т.п
Поддержаны алгоритмы шифрования и другие средства разграничения доступа: сохранение результатов распознавания в виде PDF-файла, защищённого паролем.
Распознавание штрих-кодов
Поддерживает распознавание наиболее популярных 1D и 2D штрих-кодов.
Автоматически идентифицирует и распознаёт штрих-коды, расположенные на документе под любым углом по отношению к горизонтали.
Конвертация документов
Экспорт распознанного текста в различные форматы.
Распознанный документ может быть одновременно сохранен в нескольких различных форматах.
Контроль качества распознавания
Доступна установка порога качества распознавания изображений, основанная на допустимом количестве неуверенно распознанных символов на страницу.
Обработка заданий
Настройка процесса обработки
Предусмотрена детальная настройка процесса обработки документов, в течение которого задания отправляются от одного ресурса к другому (входящая папка -> станция обработки -> исходящая папка).
Изменение настроек обработки по умолчанию
Возможно с помощью XML-описания - файла формата XML, который содержит параметры обработки документа или набора документов (расположен во входящей папке вместе с изображениями, которые надо обработать).
Анализ результатов обработки
Возможно с помощью XML-результата - файла формата XML, который содержит информацию о процессе обработки, параметрах, статистические данные и результаты обработки задания (расположен рядом с результатами в исходящей папке, если задание выполнено успешно, и в папке исключений в ином случае).
Планирование обработки заданий
Возможно планирование обработки заданий, то есть настройка очерёдности обработки заданий, включая назначение приоритетов, времени (день, месяц, час).
Выставление приоритетов
Доступно выставление приоритетов выполнения заданий, в соответствии с приоритетами формируется очередь заданий.
Поддержка сложной структуры папок
Поддержаны входящие папки со сложной структурой, т.е. с вложенными папками. При создании исходящей папки программа автоматически повторяет структуру входящей.
Отказоустойчивость
Предусмотрены следующие возможности, с помощью которых ведётся автоматический контроль работы ABBYY Recognition Server без вмешательства человека:
периодическая проверка работоспособности станции,
автоматическое восстановление связи со станцией после временного сбоя в работе станции,
автоматический запуск менеджера сервера после перезагрузки операционной системы,
автоматическое возвращение задания в очередь или перенаправление задания на другую доступную станцию в случае сбоя работы станции .
Масштабируемость
Многопроцессорная работа
Создание и запуск нескольких процессов по обработке и распознаванию одновременно, таким образом можно легко расширять мощность системы, увеличивая количество станций обработки (увеличивая количество процессоров).
Равномерная загрузка
Менеджер сервера автоматически распределяет задания между станциями обработки, выравнивая нагрузку между процессорами.
Менеджер сервера самостоятельно разделяет многостраничный документ на части и отправляет каждую из частей на свободную станцию обработки. Затем все части документа снова будут собраны в одно задание. Таким образом, распознавание/конвертация нескольких частей одного документа происходит одновременно.
Администрирование
Интерфейс консоли управления использует Microsoft Management Console (MMC) в качестве сервиса для визуализации управления приложением.
Доступна настройка параметров процессов обработки, приоритетов выполнения заданий и порога качества распознавания. Возможно изменение очерёдности выполнения заданий.
Реализована возможность вести журнал событий и контролировать работу сервера (например, получать уведомления в случае непредвиденных ситуаций).
Возможно использование RPC (протокола вызова удалённых процедур) поверх TCP/IP. Можно задействовать любой порт, разрешённый политикой безопасности, и использовать ресурсы другой локальной сети
Интеграция с другими приложениями
Лёгкость и простота интеграции
Достаточно быстро и просто интегрировать Recognition Server со сторонними приложениями с помощью открытого API (создание COM-компонент).
Доступно управление настройками обработки заданий из третьих приложений (с помощью XML-описаний).
Перемещение дополнительных метаданных
Структура XML-описаний позволяет включить в описание специальное поле данных. Эти данные будут переданы на сервер при формировании задания и сохранены в XML-результате.
Как работает ABBYY Recognition Server?
ABBYY Recognition Server - это специальное серверное приложение для распознавания документов и конвертации PDF-файлов, работающее на платформе Windows.
В структуре ABBYY Recognition Server можно выделить 3 основные компоненты:
1.
Менеджер сервера, который служит для управления всеми запросами, настройками обработки и сервисами, а также распределяет задания по распознаванию и конвертации между станциями обработки.
2.
Станцию обработки, на которой происходит непосредственно процесс распознавания/конвертации. В локальной сети может быть установлено неограниченное количество таких станций.
3.
Консоль управления обеспечивает общий интерфейс администрирования для настройки, изменения конфигурации и мониторинга. Консоль управления может быть расположена на любом компьютере в сети (по умолчанию она устанавливается совместно с менеджером сервера).
Дополнительно обеспечивается доступ к ABBYY Recognition Server посредством открытого интерфейса программирования (открытого API), что даёт возможности как для реализации клиентской части, так и для интеграции со сторонними приложениями. Также возможен анализ XML-результата после распознавания.
В том случае, когда ABBYY Recognition Server устанавливается как самостоятельное приложение для распознавания и конвертации документов и PDF-файлов, самым простым сценарием действий будет следующий:
Системный администратор или ИТ-специалист устанавливает компоненты ABBYY Recognition Server и настраивает процессы обработки для сотрудников (входящие/исходящие папки, расписание, приоритеты, параметры обработки).
После установки и настройки сервера пользователям достаточно положить изображения во входящую папку и забрать результаты распознавания/конвертации из исходящей папки. Всё остальное ABBYY Recognition Server сделает в автономном режиме.
Термины, используемые в описании компонент ABBYY Recognition Server
Входящая папка - папка с изображениями, которые необходимо обработать. Может представлять собой папку на локальном компьютере, в локальной сети или на FTP-сервере. Входящая папка может быть выбрана либо непосредственно пользователем, либо в соответствии с предопределённым списком. Изображения могут быть размещены во входящей папке любым пользователем, у которого есть к ней доступ.
Исходящая папка - папка, содержащая результаты обработки заданий.
Папка исключений содержит XML-результат и изображения, процесс обработки которых прошёл некорректно или был остановлен программой.
Задание - единица обработки, которая состоит из набора документов и параметров обработки. Одно задание может содержать один или несколько документов, включая многостраничные (например, многостраничный TIFF-файл). Параметры обработки задаются администратором при настройке сервера. Задание может также содержать файл XML-описания, определяющий параметры распознавания/конвертации изображений отличные от первоначально заданных.
XML-описание - файл формата XML, созданный пользователем или с помощью открытого API. Содержит параметры обработки документа или набора документов. XML-описание может быть расположено во входящей папке вместе с изображениями.
XML-результат - файл формата XML, созданный программой. Содержит информацию о процессе и результатах обработки задания. Этот файл может быть размещён рядом с результатами в исходящей папке.
ABBYY Recognition Server состоит из 4 частей:
серверная часть управляет всеми сервисами, запросами и настройками обработки;
открытый интерфейс программирования даёт возможности как для реализации клиентской части, например, простейшего интерфейса для создания инструкций по обработке документов серверной части (таких как XML-описания), так и для интеграции со сторонними приложениями;
станция обработки предназначена для осуществления процесса распознавания изображений документов и конвертации PDF-файлов;
консоль управления обеспечивает общий интерфейс администрирования для настройки и мониторинга работы.
В зависимости от требований проекта возможна как локальная установка, все компоненты устанавливаются на один компьютер, так и сетевая, каждая компонента устанавливается на отдельный компьютер в локальной сети.
Где использовать ABBYY Recognition Server?
ABBYY Recognition Server может быть использован как составная часть для любого серверного и клиент-серверного решения по автоматизации документооборота и архивирования на корпоративном рынке, так и как полностью готовое к использованию решение.
Наиболее успешным является применение ABBYY Recognition Server для решения следующих задач:
Преобразование больших объёмов документов. Распознавание и конвертация документов - это достаточно ресурсозатратная работа, которая замедляет осуществление других важных работ на компьютерах сотрудников. Осуществляя распознавание документов как фоновый процесс, используя несколько станций распознавания, можно снизить его влияние на другие рабочие процессы на компьютерах, что поможет избежать излишней траты, как ресурсов оборудования, так и человеческих.
Ввод документов для последующего индексирования. Благодаря специальному режиму анализа (DA для полнотекстового индексирования), ABBYY Recognition Server может автоматически определить и распознать весь текст на изображении, включая текст на картинках, в диаграммах, подписях, логотипах. Распознанный таким образом текст может быть легко проиндексирован в системе электронного документооборота или архива, что обеспечивает в дальнейшем качественный полнотекстовый поиск в подобном документе.
Полнотекстовое преобразование для ввода данных. ABBYY Recognition Server можно использовать как модуль, который осуществляет полнотекстовое распознавание неструктурированных документов, для интеграции этой функциональности в существующую систему ввода документов (как дополнительного или основного ядра распознавания).
Создание архива документов в PDF формате. Удобство и простота использования файлов PDF формата (их можно открыть и прочитать на любом компьютере), маленький размер самого файла PDF, возможность закрыть данные паролем, - все эти факторы приводят к увеличению популярности файлов PDF формата во всё мире. С помощью ABBYY Recognition Server вы можете легко и быстро конвертировать любые документы в PDF-файлы, создавая компактный электронный архив с возможностью полнотекстового поиска по каждому документу.
Спецификация
Сопроводительная техническая документация
Встроенная справочная система (формат CHM, на английском языке) содержит подробное описание открытого API и общие сведения о лицензировании и активации.
Примеры кода, поставляемые вместе с ABBYY Recognition Server 1.0, демонстрируют использование открытого API для решения типовых задач и помогают понять как использовать эту компоненту для решения необходимых задач.
Руководство системного администратора (на английском языке) содержит информацию об установке, активации лицензии и администрировании ABBYY Recognition Server .
Внутренняя функциональность
Открытый интерфейс программирования
Программный интерфейс, который позволяет создавать XML-описания, организовывать взаимодействие программы ABBYY Recognition Server с третьими приложениями и анализировать XML-результаты.
Полностью соответствует стандарту COM и может использоваться в любой COM -совместимой среде разработки, в т.ч. в Visual Basic , C ++ и языках сценариев.
Консоль управления
Для работы консоли управления ABBYY Recognition Server используется Microsoft Management Console ( MMC ) в качестве сервиса для визуализации управления приложением MMC.
Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 500 МГц.
Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000.
Оперативная память: 128 Мб.
Пространство на жёстком диске: 15 Мб для установки, плюс 100 Мб для работы программы.
Необходимо иметь права на чтение и запись для следующих разделов системного реестра:
HKEY _ CLASSES _ ROOT
HKEY _ LOCAL _ MACHINE \ Software\ABBYY
HKEY_CURRENT_USER\Software\ABBYY
Открытый интерфейс программирования (Open API)
Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 200 МГц.
Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000, Windows ME/98.
Оперативная память: 128 Мб.
Пространство на жёстком диске: 15 Мб.
Станция обработки (Processing station)
Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 500 МГц.
Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000.
Оперативная память: 128 Мб. Дополнительно 100 Мб для каждого процесса распознавания.
Пространство на жёстком диске: 230 Мб для установки, плюс 100 Мб для работы программы.
Консоль управления (Remote administration console)
Компьютер с процессором Intel Pentium / Celeron / Xeon , AMD K 6/ Athlon / Duron / Sempron или другим совместимым с ними процессором с тактовой частотой не менее 200 МГц.
Операционная система Microsoft Windows Vista, Windows Server 2003, Windows XP, Windows 2000.