|
|
|||||||||||||||||||||||||||||
|
Особенности извлечения знаний из текстов. Часть 3.Источник: synsysbiz Вязгина Елена
2. Выделяемые объекты и связи. Набор выделяемых объектов зависит от задач пользователя. В тоже время, качество лингвистического процесора в значительной степени определяется возможностями такого выделения. Ниже перечислены основные типы информационных объектов и связей, извлекаемые Semantix: - лица (по ФИО) с их особенностями (потерпевший, террорист и др.) - адреса, почтовые атрибуты - организации - должности - террористические группы, ОПГ - номера телефонов, факсов, электронных постовых адресов с их стандартизацией - средства транспорта с выделением марки машины, государственного номера, цвета и других атрибутов - количественные характеристики (сколько лиц или других объектов принимали участие в том или ином событии) - паспортные данные и другие документы с их атрибутами - взрывчатые вещества - наркотические вещества - оружие с атрибутами - словесное описание лиц, их приметы - номера счетов, суммы денег с указанием типа валюты - события (криминальные, террористические, поломки изделий и др.) с указанием участия в них информационных объектов - время и место событий - связи между различными типами информационных объектов, включая комплексные объекты (действия или события) - другие объекты (опыт работы, знание языков ... до 40 типов). На рис.1 представлено графическое изображение этих объектов в ДЕМО-версии . (ДЕМО-версия в сети Интернет находится на сайте www.semantix4you.com. Рис.1. Набор выделяемых объектов процессором Semantix. При выделении объектов учитываются возможные варианты называния объекта в тексте, в том числе, в краткой форме. Типовые объекты (ФИО, даты, адреса, должности и др.) приводятся к одному (стандартному) виду. Осуществляется идентификация объектов с учетом кратких наименований (например, отдельных фамилий или имен с ФИО), анафорических ссылок (указательных и личных местоимений, например, " Этот человек", "Он ..." ), определений (например, "Мэр Москвы Лужков" идентифицируется с последующими словами " мэр", "Лужков "). В результате строится РСС, называемая содержательным портретом документа . При этом учитываются особенности ЕЯ, где с помощью глаголов, отглагольных существительных и причастных оборотов задаются одни и те же действия. При представлении на РСС они приводятся к одному виду - комплексному объекту. Более того, формы с отглагольными существительными могут быть компонентами глагольных форм. Аналогично, в РСС одни объекты могут быть компонентами других. Представляются причино-следственные и временные зависимости между действиями, событиями, которые отражают логическую связь предложений, заданную в явном виде - с помощью слов типа поэтому, затем и др. Пример содержательного портрета, изображенного в виде графа, представлен на Рис.2. Рис.2. Графическое представление содержательного портрета документа. На данном примере видно, что фигурант Агджа Мехмет Али во многих случаях задается его именем Агджа и в результате идентификации имеет много связей. С помощью эллипсов изображаются действия, которые связываются с предложениями. Ссылки по теме
|
|