Елена Агафонова
Королевский ботанический сад Эдинбурга (КБСЭ) вполне можно назвать флористической MI6 - его сотрудники выращивают и изучают растения со всего света. За 300 лет внешней "растительной" разведки КБСЭ изучил две трети мировой флоры и составил поистине уникальную ботаническую коллекцию, с которой ученые-флористы иботаники-энтузиасты могли работать только в Эдинбурге.
Недавно руководство ботанического сада решило оцифровать и выложить в Интернет разведданные о 3 миллионах растений. Ботаникам потребовалось автоматизированное решение для потокового ввода документов и создания электронного архива, которое легко масштабируется и отличается высокой производительностью. По рекомендациям Национальной библиотеки Великобритании выбор был сделан в пользу ABBYY Recognition Server.
"Вы гербарий собирать любите? А обрабатывать?"
Поставленная задача осложнялась разнообразием шрифтов, наличием штрихкодов и рукописного текста на устаревших вариантах нескольких языков - некоторые записи датируются 1690 годом и трудны для распознавания. Карточки с разведданными о каждом растении пестрят цифрами, именами-фамилиями и сокращениями - вот как здесь:
Кроме этого, у КБСЭ есть собственная система управления изображениями, где хранятся TIFF-файлы всех карточек и записок. Так что кроме качества оцифрованного материала и автоматизации процесса обработки текстов руководству сада хотелось, чтобы Recognition Server гармонично сработался с этой системой.
Проект "Гербарий онлайн"
И они сработались.
А в чёрном-чёрном ящике происходит следующее:
У Recognition Server"а есть доступ ко всем TIFF, которые хранятся в одной из папок системы управления изображениями. После их обработки программа создаёт два файла - PDF с возможностью поиска (на всякий пожарный случай) и простой текстовый файл. Последний отправляется в специальную папку, лежащую на сервере КБСЭ, и там его ловит их собственная программа - она добавляет этот файл в базу данных MySQL.
Таким образом, оцифрованный гербарий теперь доступен через веб-сайт КБСЭ в разделе Herbarium Catalogue с возможностью поиска по нескольким параметрам.
Выглядит это так:
Ищем, например, самый обыкновенный лютик. Словарь Lingvo подскажет, что искать надо Ranunculus gen.
Сервис выдаст большой список карточек по всем образцам лютиков, завезённым в Великобританию из разных стран разными экспедициями. Картинки засушенных образцов прилагаются. Это небольшая часть списка. Выберем карточку растения из Израиля с изображением.
Картинку можно увеличить. Для интереса посмотрим сопроводительный текст:
Теперь ученые-флористы и ботаники-энтузиасты могут найти нужный им материал из любой точки мира.
Елена Агафонова,
переводчик