(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Особенности извлечения знаний из текстов. Часть 2.

Вязгина Елена

1. Основные компоненты процессора Semantix

Лингвистический процессор Semantix предназначен для областей, где требуется автоматическая обработка потоков текстов на естественном языке (ЕЯ ): резюме, сообщения СМИ, информационно-рекламные материалы, почтовые сообщения, сводки происшествий, справки по уголовным делам, архивные материалы и др. Из текстов (документов) выделяются интересующие пользователя объекты, их связи, а также факты участия объектов в тех или иных действиях или событиях. Последние сами рассматриваются как комплексные объекты с их свойствами и связями. В результате на основе каждого документа строится специального вида семантическая сеть (РСС), представляющая его семантическую структуру . Такая сеть отображается на XML-файл. С их помощью значительно облегчается последующий автоматический анализ. XML-файлы являются основой для составления досье, обзоров, отчетов. Другой вариант их использования - автоматическое заполнение реляционных БД или формирование собственной Базы Знаний с последующей организация направленного поиска нужной информации (объектов), в том числе, различных видов семантического поиска.

Основные компоненты процессора Semantix:

1.1. Блок лексического и морфологического анализа. Выделяет из текста слова и предложения, приводит слова нормальную форму и формирует семантическую сеть, представляющую пространственную структуру текста (ПС ), где отображается . последовательность слов, их основные признаки, начало предложений и наличие пробельных строк. Блок использует специальный набор тематических словарей (словарь стран, регионов России, имен, видов оружия и др.) для группирования слов и придания им дополнительных семантических признаков [14].

1.2. Блок синтактико-семантического анализа. Он преобразует одну семантическую сеть (ПС) в другую, представляющую семантическую структуру текста (СС ), т.е. выделенные объекты и их связи. Последнюю часто называют содержательным портретом документа [9,10]. Блок управляется лингвистическими знаниями (ЛЗ), которые определяют процесс анализа текста. ЛЗ включают в себя специального вида контекстные правила, которые обеспечивают высокую степень избирательности при выявлении (извлечении) объектов и связей [8].

Задачи этого блока:

- Извлечение из потока ЕЯ-документов информационных объектов: лиц, организаций, действий, их места и времени, и многих других объектов.

- Выявление связей объектов. Например, как лица связаны с организациями ( МЕСТО_РАБОТЫ ), адресами ( ПРОЖИВАЕТ, ПРОПИСАН ). Или как фигуранты связаны с объектами типа оружие, наркотики (ИМЕТЬ).

- Анализ глагольных форм, причастных и деепричастных оборотов с выявлением фактов участия объектов в соответствующих действиях. Например, один фигурант передал другому фигуранту наркотики - это факт, связывающий фигурантов.

- Выявление связей действий с объектами типа место или время (где и когда имело место данное действие или событие).

- Анализ причино-следственных и временных связей между действиями и событиями.

1.3. Экспертные системы (ЭС). На основе сети СС формируют новые знания - в виде дополнительных фрагментов РСС. Например, при обработке тектов резюме по каждой автобиографии ЭС выявляют область деятельности лица по его автобиографии (в соответствии с заданным классификатором). Оценивается опыт его работы. При анализе криминальных действий ЭС осуществляют соотнесение криминального происшествия к определенному типу: выявляют характер преступления, способ его совершения, орудие и т.д. (в соответствии с классификаторами криминальной милиции).

1.4. Обратный лингвистический процессор, преобразующий содержательный портрет документа (семантическую сеть СС) в XML-файл. При этом осуществляются необходимые замены символов, служебных слов (имен объектов), выставляются метки начала и конца объектов, действий, предложений. Преобразование осуществляется без потери информации. XML-файл устроен таким образом, что в нем представлены все выявленные компоненты и связи. В случае необходимости, обеспечивается обратное преобразование XML-файл в сеть СС.

1.5. База лингвистических и экспертных знаний (БЗ). Содержит правила анализа текста и экспертных решений во внутреннем представлении. Они определяют работу лингвистического процессора. Semantix имеет несколько таких баз, которые активизируются в зависимости от предметной области и задач пользователя, см. п.3.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 03.04.2008 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
erwin Data Modeler Standard Edition r9.7 - Product plus 1 Year Enterprise Maintenance Commercial
GFI WebMonitor Plus Edition - подписка на 1 год
Комплект Dr.Web «Универсальный», 1 год, 5 ПК
Microsoft Windows Professional 10, Электронный ключ
ReSharper Ultimate - Commercial annual subscription
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Новости ITShop.ru - ПО, книги, документация, курсы обучения
Программирование на Microsoft Access
CASE-технологии
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
СУБД Oracle "с нуля"
Новые программы для Windows
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100