Pull to refresh
0
Content AI
Решения для интеллектуальной обработки информации

ABBYY Recognition Server на службе ботаников Её Величества

Reading time 2 min
Views 8.3K
image
Королевский ботанический сад Эдинбурга (КБСЭ) вполне можно назвать флористической MI6 – его сотрудники выращивают и изучают растения со всего света. За 300 лет внешней «растительной» разведки КБСЭ изучил две трети мировой флоры и составил поистине уникальную ботаническую коллекцию, с которой ученые-флористы и ботаники-энтузиасты могли работать только в Эдинбурге.

Недавно руководство ботанического сада решило оцифровать и выложить в Интернет разведданные о 3 миллионах растений. Ботаникам потребовалось автоматизированное решение для потокового ввода документов и создания электронного архива, которое легко масштабируется и отличается высокой производительностью. По рекомендациям Национальной библиотеки Великобритании выбор был сделан в пользу ABBYY Recognition Server.


«Вы гербарий собирать любите? А обрабатывать?»

Поставленная задача осложнялась разнообразием шрифтов, наличием штрихкодов и рукописного текста на устаревших вариантах нескольких языков – некоторые записи датируются 1690 годом и трудны для распознавания. Карточки с разведданными о каждом растении пестрят цифрами, именами-фамилиями и сокращениями – вот как здесь:

image

Кроме этого, у КБСЭ есть собственная система управления изображениями, где хранятся TIFF-файлы всех карточек и записок. Так что кроме качества оцифрованного материала и автоматизации процесса обработки текстов руководству сада хотелось, чтобы Recognition Server гармонично сработался с этой системой.

Проект «Гербарий онлайн»

И они сработались.
А в чёрном-чёрном ящике происходит следующее:
У Recognition Server’а есть доступ ко всем TIFF, которые хранятся в одной из папок системы управления изображениями. После их обработки программа создаёт два файла – PDF с возможностью поиска (на всякий пожарный случай) и простой текстовый файл. Последний отправляется в специальную папку, лежащую на сервере КБСЭ, и там его ловит их собственная программа – она добавляет этот файл в базу данных MySQL.

Таким образом, оцифрованный гербарий теперь доступен через веб-сайт КБСЭ в разделе Herbarium Catalogue с возможностью поиска по нескольким параметрам.

Выглядит это так:

Ищем, например, самый обыкновенный лютик. Словарь Lingvo подскажет, что искать надо Ranunculus gen.

image

Сервис выдаст большой список карточек по всем образцам лютиков, завезённым в Великобританию из разных стран разными экспедициями. Картинки засушенных образцов прилагаются. Это небольшая часть списка. Выберем карточку растения из Израиля с изображением.

image

Картинку можно увеличить. Для интереса посмотрим сопроводительный текст:

image

Теперь ученые-флористы и ботаники-энтузиасты могут найти нужный им материал из любой точки мира.

Елена Агафонова,
переводчик
Tags:
Hubs:
+47
Comments 9
Comments Comments 9

Articles

Information

Website
www.contentai.ru
Registered
Founded
Employees
101–200 employees
Location
Россия