Автоматизация государственного языка

Источник: tecon

Одно из наиболее требовательных к ресурсам направлений в автоматизации человеческой деятельности - обработка текстовой информации. Необходимость такой обработки вызвала бурный рост рынка приложений, использующих полнотекстовый поиск в хранилищах электронных документов и документ-ориентированных базах данных. Способствовало этому росту и развитие Internet/Intranet-технологий, систем документооборота.

Проблемы обработки текста

Необходимо отметить, что хранение и обработка текстовой информации порождает множество проблем, как «организационных» (например, массовое преобразование информации из одного вида в другой: запись стенограмм, распознавание текста и др.), так и «технологических». Последние во многом связаны с тем, что компьютеры изначально были ориентированы на обработку числовой информации, проведение инженерных расчетов для решения задач физики, химии, обороны, космоса. Соответственно, долгие годы большинство разрабатываемых алгоритмов имели «числовую» направленность. Позже компьютеры стали применять для решения «учетных» задач, что вызвало рост интереса к разработке несложных «текстовых» алгоритмов (сортировка, поиск в таблицах).

Современная деятельность человека становится все более информационно-ориентированной. Все чаще ему требуется найти не только конкретную, но и «похожую» информацию, найти связи (явные и скрытые) между различными фактами, определить правдивость или ложность сведений, выявить «качественные» тенденции, не выразимые в традиционных графиках и диаграммах. Такого рода задачи возникают в самых разных сферах человеческой деятельности, причем в ряде случаев (в здравоохранении, деятельности правоохранительных органов и органов государственного управления) на их решение может отводиться несколько минут и даже меньше.

Одними из самых распространенных инструментов для хранения и обработки информации являются решения компании Oracle, обладающие широкими «текстовыми» возможностями.

Текстовые возможности Oracle

Oracle Text позволяет хранить в СУБД Oracle наряду с «обычными» табличными данными документы и строить запросы как к этим документам, так и к информации, хранимой в файлах ОС или на Web-страницах.

Для реализации текстовых возможностей в СУБД Oracle используются индексы специального вида. В Oracle Text используются три вида «текстовых» индексов:

для полнотекстового поиска по текстовым документам;
для упрощенного и ускоренного поиска по «каталогам» (1-2 строчным текстовым описаниям);
для построения «классификаций» документов.

Среди возможностей Oracle Text следует выделить:

работу с документами, хранящимися в СУБД, в файловой системе и в Web;
поддержку более 150 различных форматов документов;
богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояний между словами, использование метасимволов и т.д.;
мощные лингвистические опции (поиск с учетом словоформ, нечеткий поиск, расширение запросов при помощи тезауруса, тематический анализ, реферирование, классификация, кластерный анализ).

Текстовые возможности Oracle находят применение как в различных прикладных разработках, так и в ряде других продуктов корпорации:

Oracle Ultra Search - средство для организации поиска по разнородным информационным ресурсам;
Oracle Internet Application Server - средство создания Internet/Intranet-приложений (содержит портлет для поиска по документам и формам портала);
Oracle Collaboration Suite - средство организации коллективной работы, включающее электронную и голосовую почту, средства публикации, календарь;
Oracle Content Management SDK - средство управления документами различной природы с возможностью поддержания структуры каталогов, разграничением прав доступа, ведения версий документов.

Новейшая технология Oracle Secure Enterprise Search обеспечивает доступ пользователей к корпоративной и внешней информации, осуществляемый в соответствии с правами, которые установлены администратором по безопасности. При этом все источники информации защищены, а результаты поиска фильтруются таким образом, что пользователю становятся видны только ссылки на разрешенные ему для просмотра ресурсы.

Все вроде бы хорошо. Но есть одна проблема - многие из перечисленных возможностей работают только для текстов на английском и нескольких других иностранных языках. Для украинского и русского языков Oracle Text реализует только базовые поисковые возможности. Соответственно, ограничены и возможности других продуктов Oracle, поскольку они не задействуют лингвистические технологии, которые зависят от лексики, грамматики и семантики языка.

Решение проблем

Для преодоления указанного недостатка фирмой «Текон» совместно с ее партнерами - «Гарант-Парк-Интернет» (Россия) и «Трайдент Софтвер» (Украина) - был создан продукт Ukrainian Context Optimizer (UCO). В нем использованы технологии и алгоритмы, которые прошли проверку на практике и успешно работают в самых разных отраслях.

UCO for Oracle позволяет значительно расширить возможности Oracle в украиноязычных базах данных и документов. Этот продукт решает проблему полноценной реализации для украинского языка всех существующих функций Oracle Text:

поиск документов с учетом всех грамматических форм слов запроса;
поиск слов, близких по написанию; нечеткий поиск;
расширение запроса синонимами, более общими и более частными понятиями (на основе тезауруса общей лексики украинского языка);
поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими по смыслу темами;
составление общих и тематических рефератов документов;
автоматическое построение иерархических рубрикаторов, классификация документов по рубрикам;
поддержка всех кодовых страниц украинского языка.

Интеграция с технологиями и продуктами Oracle. В UCO есть возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Учет особенностей украинского языка, реализованный в UCO, значительно упрощает поиск и обработку документов при помощи продуктов Oracle (Ultra Search, Collaboration Suite, Internet Application Server, Content Mamagement SDK). Разработчики различных решений на базе технологий Oracle, связанных с обработкой текста (например, электронных архивов, систем управления знаниями и систем управления документооборотом), смогут при помощи UCO более полно реализовать возможности поиска и обработки информации.

Интеграция корпоративных архивов. По оценкам экспертов, до 90% объема корпоративной информации представлено в виде текста. Oracle Ultra Search совместно с UCO позволяет объединить все корпоративные ресурсы в единое информационное пространство.

Аналитические возможности. Алгоритмы анализа текста и лингвистическое обеспечение, входящие в UCO, позволяют не только искать документы, но и проводить их аналитическую обработку: маршрутизацию и классификацию потока документов (например, ленты новостей, электронной почты), представление тематической структуры исследуемого массива информации, представление динамики изменения тематического поля вокруг интересующего объекта, выявление ассоциативных связей между темами/объектами.

Опубликована статья директора компании "Текон" Коржова Евгения Ивановича "Автоматизация государственного языка" в журнале "Computerworld Украина" №10 от 11 марта 2008г.