Особенности извлечения знаний из текстов. Часть 6.

Вязгина Елена

5. Структура XML-файла

В XML-файле представлена содержательный портрет (структура СС), т.е. все объекты и связи, выявленные их текста процессором Semantix. В связи с этим организация XML-файлов имеет определенный научный интерес - как средств представления семантической структуры предложений и текстов.

Преобразование сети СС в XML-файл обеспечивается с помощью обратного лингвистического процессора. При этом фрагменты, представляющие объекты, отношения, действия и предложения в структуре СС, отображаются на соответствующие компоненты XML-файла, которые также будем называть объектами, отношениями, действиями и предложениями. Рассмотрим основные компоненты, из которых состоит XML-файл.

5.1. Константа - это простейшая компонента СС, представляющая собой одно нормализованное слово или символ ЕЯ. Под нормализацией здесь и далее понимается приведение слова к именительному падежу единственного числа для существительного, прилагательного, к инфинитиву для глагола и т.д. Константа задается в XML-файле в виде:

Например, константами являются имена улиц, людей, числа, представляющие собой номера домов, квартир, понятия, слова-действия и любые другие нормализованные слова, встречающиеся в текстах ЕЯ.

5.2. Тип элемента - это указатель класса, к которому относится константа. Типы задаются для определенных объектов и служат для указания, что значит в нем тот или иной элемент. Типы - это выделенные константы. Они вводятся в ЛЗ при настройке процессора.

5.3. Типизированная константа - это константа с указанием ее класса. Задается в виде:

Например, если объектом является адрес, то указывается, что данное слово - улица, число - номер дома и т.д. Наборы типов задаются при настройке процессора.

5.4. Атрибут - это константа, характеризующая свойство объекта. Задается в виде:

5.5. Ссылка на объект . Каждый объект имеет свой уникальный номер, называемый идентификатором . Ссылка на объект задается в виде:

.

5.6. Компонента XML-файла, называемая объектом (или просто объект), определяется идентификатором, типом и содержит упорядоченное множество элементов, каждое из которых есть или константа, или свойство, или ссылка на другой объект, называемый дочерним . В конце дается описание объекта - текстовый фрагмент, на основе которых был сформирован данный объект.

Тип объекта - это выделенная константа. Такие константы задаются при настройке процессора: для каждого типа объектов - своя константа ( FIO, DATE, ADDRESS и др.). Один объект может быть дочерним по отношению к нескольким объектам. Два ограничения - отсутствие циклической зависимости и объект не может ссылаться на действия. Наоборот, действия ссылаются на объекты, см. п.5.7. Объект задается в виде:

Здесь - или константа, или свойство, или ссылка на другой объект. Порядок элементов в объекте определяется порядком соответствующих слов или фрагментов в тексте, на основе которых был сформирован объект.

5.7. Компонента XML-файла, называемая действием (или просто действие), определяется идентификатором, типом (соответствует глаголу) и содержит упорядоченное множество элементов действия, каждое из которых есть или константа, или ссылка на объект, или ссылка на другое действие. Подобно объектам, действия также могут содержать произвольный неупорядоченный набор атрибутов (свойств). Действие задается в виде:

:

В отличие от объектов, у действий нет описания. Порядок элементов в действии определяется порядком соответствующих слов или фрагментов в тексте, на основе которых был сформировано действие.

5.8. Компонента XML-файла, называемая отношением (или просто отношение), определяется типом (именем отношения) и содержит два элемента, каждый из которых это ссылка на объект, действие или константа. Отношение задается в виде:

Вместо идентификаторов могут быть константы. Фактически отношение - это важный частный случай двух элементного действия, у которого отсутствуют идентификатор и свойства.

5.9. Компонента XML-файла, называемая предложением (или просто предложение) состоит из упорядоченного набора констант и ссылок на объекты или действия, которые были сформированы на основе соответствующего предложения ЕЯ. В конце дается текст самого предложения, взятого из исходного текста. Предложение задается в виде:

:

исходное предложение ЕЯ-текста

5.10. Выходной XML-файл состоит из вышеперечисленных компонент и имеет вид:

:

содержимое 1-го действия

:

содержимое 1-го отношения

:

:

Порядок предложений XML-файле соответствует их порядку в исходном тексте.

Пример XML-файла представлен на рис.4.

Рис.4. Пример XML-файла для представления семантической структуры

На Рис.4 имеются типизированные константы для объектов FIO ( лицо ), DATE ( дата ). При этом видно, что описание объекта не всегда берется из текста. Если процессор по элементам объекта в указанном интервале (задается средствами позиционирования предложения) не может найти нужное описание, то процессор формирует свое описание, как например , 9 январь 1958 вместо 9.1.1958.

В XML-файле имеются все компоненты, необходимые для различных приложений. Нормализованные элементы являются основой организации различных видов «объектного» или семантического поиска. Описания служат для построения различного рода досье, отчетов, форм и т.д.

Заключение

В настоящее время предлагается версия семантико-ориентированного лингвистического процессор - Semantix 1.0 , обрабатывающего документы в различных предметных областях на русском и английском языках. Качество работы процессора может оценить любой пользователь на своих документах, выйдя на сайт [15].

Semantix 1.0 представляет собой библиотеку COM-объектов и функций, предназначенную для автоматической обработки текстов естественного языка- русского и английского. Модульная структура Semantix позволяет без больших трудозатрат встраивать его в системы обработки текстовой информации, например, системы документооборота, электронные издания и т.п.

Литература

1. Кузнецов И.П. Семантические представления // М. Наука. 1986г. 290 с.

2. Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированные системы на основе баз знаний. Монография. М.Связьиздат. 2007. 173 с.

3. Cunningham, H. Automatic Information Extraction // Encyclopedia of Language and Linguistics, 2cnd ed. Elsevier, 2005.

4. Han J. and Kamber, M. Data Mining: Concepts and Techniques // Morgan Kaufmann, 2006.

5. FASTUS:a Cascaded Finite-State Trasducerfor Extracting Information from Natural-Language Text. // AIC, SRI International. Menlo Park. California, 1996.

6. Кузнецов И.П. Методы обработки сводок с выделением особенностей фигурантов и происшествий // Труды международного семинара Диалог-1999 по компьютерной лингвистике и ее приложениям. Том 2. Таруса 1999.

7. Кузнецов И.П., Мацкевич А.Г. Система извлечения семантической информации из текстов естественного языка // Труды международной конференции Диалог 2001 по компьютерной лингвистике и её приложениям: Т.2. Москва, Наука 2002.

8. Кузнецов И.П., Особенности обработки текстов естественного языка на основе технологии баз знаний // Сб. ИПИ РАН, Вып.13, 2003 г. стр. 241-250.

9. Kuznetsov, I., Kozerenko, E. The system for extracting semantic information from natural language texts // Proceeding of International Conference on Machine Learning. MLMTA-03, Las Vegas US, 23-26 June 2003, p. 75-80.

10. Кузнецов И.П., Мацкевич А.Г. Англоязычная версия системы автоматического выявления значимой информации из текстов естественного языка // Труды международной конференции по компьютерной лингвистике и интеллектуальным технологиям "Диалог 2005", Звенигород, 2005.

11. Кузнецов И.П., Мацкевич А.Г. Семантико-ориентированный лингвистический процессор для автоматической формализации автобиографических данных // Труды международной конференции по

компьютерной лингвистике и интеллектуальным технологиям "Диалог 2006", Бекасово, 2006, стр. 317-322.

12. Кузнецов И.П., Сомин Н.В. Англо-русская система извлечения знаний из потоков информации в Интернет-среде. // Сб. ИПИ РАН, Вып.17, 2007 г. стр. 236-253.

13. Кузнецов И.П., Мацкевич А.Г. Лингвистические и алгоритмические аспекты выделения объектов и связей из предметно-ориентированных текстов // Труды международной конференции по компьютерной лингвистике и интеллектуальным технологиям "Диалог 2007", Бекасово, 2007, стр. 333-342.

14. Сомин Н.В., Соловьева Н.С.., Шарнин М.М. Система морфологического анализа: опыт эксплуатации и модификации // Системы и средства информатики, Вып. 15 // ИПИ РАН - М.: Наука, 2005. - с. 20-30.

15. ДЕМО-версия процессора Semantix - http://www.semantix4you.com.

Приложение.

Пользовательские настройки (выбор объектов и правил) для области « Документы о терроризме на русском ».

1. ФИО лиц 2. Арабские ФИО 3. Идентификация лиц

4. Клички 5. Приметы 6. Даты, время

7. Интервалы времени 8. Телефоны 9. Телефоны из зап.книжек

10. E_MAIL 11. WEB-сайт 12. Место. Адрес

13. Организации 14. Работа, должность 15. Оружие

16. Автосредства 17. Террористы 18. Вооруженные силы

19. Номерные вещи 20. Паспорт, документы 21. Национальность

22. Номера счетов, ИНН 23. Наркотики 24. Значимые объекты

25. Товары 26. Службы МВД 27. Статьи УК

28. Крим. Дело 29. Выделение примет 30. Пользовательские объекты

31. Свойства объектов 32. Приметы 33. Идентификация местоимений

34. Словосочетания 35. Числовые показатели 36. Однородные члены

37. Термины 38. Синонимы.


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=9919