(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Особенности извлечения знаний из текстов. Часть 3.

Вязгина Елена

2. Выделяемые объекты и связи.

Набор выделяемых объектов зависит от задач пользователя. В тоже время, качество лингвистического процесора в значительной степени определяется возможностями такого выделения. Ниже перечислены основные типы информационных объектов и связей, извлекаемые Semantix:

- лица (по ФИО) с их особенностями (потерпевший, террорист и др.)

- адреса, почтовые атрибуты

- организации

- должности

- террористические группы, ОПГ

- номера телефонов, факсов, электронных постовых адресов с их стандартизацией

- средства транспорта с выделением марки машины, государственного

номера, цвета и других атрибутов

- количественные характеристики (сколько лиц или других объектов принимали участие в том или ином событии)

- паспортные данные и другие документы с их атрибутами

- взрывчатые вещества

- наркотические вещества

- оружие с атрибутами

- словесное описание лиц, их приметы

- номера счетов, суммы денег с указанием типа валюты

- события (криминальные, террористические, поломки изделий и др.) с указанием участия в них информационных объектов

- время и место событий

- связи между различными типами информационных объектов, включая комплексные объекты (действия или события)

- другие объекты (опыт работы, знание языков ... до 40 типов).

На рис.1 представлено графическое изображение этих объектов в ДЕМО-версии . (ДЕМО-версия в сети Интернет находится на сайте www.semantix4you.com.

Рис.1. Набор выделяемых объектов процессором Semantix.

При выделении объектов учитываются возможные варианты называния объекта в тексте, в том числе, в краткой форме. Типовые объекты (ФИО, даты, адреса, должности и др.) приводятся к одному (стандартному) виду. Осуществляется идентификация объектов с учетом кратких наименований (например, отдельных фамилий или имен с ФИО), анафорических ссылок (указательных и личных местоимений, например, " Этот человек", "Он ..." ), определений (например, "Мэр Москвы Лужков" идентифицируется с последующими словами " мэр", "Лужков ").

В результате строится РСС, называемая содержательным портретом документа . При этом учитываются особенности ЕЯ, где с помощью глаголов, отглагольных существительных и причастных оборотов задаются одни и те же действия. При представлении на РСС они приводятся к одному виду - комплексному объекту. Более того, формы с отглагольными существительными могут быть компонентами глагольных форм. Аналогично, в РСС одни объекты могут быть компонентами других. Представляются причино-следственные и временные зависимости между действиями, событиями, которые отражают логическую связь предложений, заданную в явном виде - с помощью слов типа поэтому, затем и др. Пример содержательного портрета, изображенного в виде графа, представлен на Рис.2.

Рис.2. Графическое представление содержательного портрета документа.

На данном примере видно, что фигурант Агджа Мехмет Али во многих случаях задается его именем Агджа и в результате идентификации имеет много связей. С помощью эллипсов изображаются действия, которые связываются с предложениями.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 07.04.2008 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Kaspersky Endpoint Security для бизнеса – Стандартный Russian Edition. 10-14 Node 1 year Base License
EMS Data Export for PostgreSQL (Business) + 1 Year Maintenance
TeeBI for RAD Studio Suite with source code single license
Quest Software. TOAD for Oracle Edition
Allround Automation PL/SQL Developer - Annual Service Contract - Unlimited
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Программирование на Microsoft Access
CASE-технологии
СУБД Oracle "с нуля"
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
Все о PHP и даже больше
Работа в Windows и новости компании Microsoft
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100