(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Особенности извлечения знаний из текстов. Часть 4.

Вязгина Елена

3. Факторы, определяющие качество процессора

Качество лингвистического процессора определяется рядом факторов. Во-первых, это возможности выделения объектов и связей. Имеется в виду типы выделяемых объектов, их количество. Процессор Semantix выделяет до 40 типов объектов, в том числе комлексных объектов, соответствующих действиям и событиям. С увеличением количества возникают дополнительные трудности, связанные с "коллизией" правил выделения: одни правила могут захватывать слова, относящиеся к другим объектам и выделяемым другими правилами. становится важным порядок применения правил.

Выделение связей - это не только глубинный анализ глагольных и других форм. Многие связи даются по умолчанию. В процессоре Semantix для ряда объектов организован специальный поиск связанных объектов, т.е. восстановление связей, данных по умолчанию. Будем называть подобные процессы идентификацией. Такие процессы организуются, чтобы связать лицо с его местом проживания или местом работы, принадлежащим ему автотранспортом и т.д. Эти объекты могут быть в тексте на значительном расстоянии. Отсюда трудности. Требуются специальные фильтры, чтобы не захватить и не связать посторонний объект.

Во-вторых, важный фактор - это избирательность правил и процедур идентификации: коэффициент шумов и потерь. Под шумами понимается наличие лишних слов в объектах. Потери - это когда объект не выявлен или выявлен частично: в тексте есть слова, которые не вошли в объект. В процессоре Semantix правила устроены таким образом, что они обеспечивают высокую степень избирательности и минимизацию шумов и потерь при большом количестве выделяемых объектов, см. п.3.

Третий фактор - возможность и трудоемкость настройки на корпус текстов (для повышения избирательности правил выделения объектов), а также настройки на новые объекты. В связи со сложностью процессов анализа такая настройка должна осуществляться через лингвистические знания (ЛЗ). Последние должны иметь все средства для повышения избирательности правил и необходимые удобства в плане их создания и корректировки. В идеале с помощью ЛЗ должна обеспечиваться настройка на особенности языка - признаки, которые даются словам, на типовые конструкции и формы языка. Лингвистический процессор должен быть в значительной степени индифирентен к языку. Его задача - поддерживать ЛЗ, в том числе, процесс применения правил выделения идентификации.

По такому принципу организован процессор Semantix, в котором за счет ЛЗ обеспечивается анализ сложных конструкций русского языка, а также анализ англо-язычных конструкций и форм, выделение англо-язычных объектов и их связей. Другими словами, обеспечивается анализ не только русского, но и английского языка. Это говорит об универсальности процессора.

Четвертый фактор - скорость работы лингвистического процессора, т.е. время анализа текстов. Скорость определяется конструктивными особенностями процессора (средствами уменьшения переборов), а также количеством выделяемых объектов. Применение правил их выделения связано с поиском нужных слов, где требуются переборы. Чем больше объектов и правил, тем больше переборов и больше время анализа.

В процессоре Semantix имеются различные средства уменьшения переборов. Помимо программных, также имеются средства, управляемые с помощью ЛЗ. Для каждого правила указывается, какие слова следует искать для инициирования процесса его применения. Задаются допустимые контексты (слева и справа от выявляемых слов), факультативные элементы [8].Таким образом обеспечивается достаточно высокая скорость (доли секунды на 1 кб. текста) при достаточно большом количестве выделяемых объектов. Отметим, что если объектов мало, то скорость значительно возрастает. В связи с этим в ЛЗ введены специальные средства, использующие список значимых слов и признаков (указывающих на наличие объектов) для выделения значимых предложений. Только их следует анализировать. И если в тексте много предложений без объектов, то таким образом скорость можно увеличить на порядки.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 11.04.2008 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Panda Internet Security - ESD версия - на 1 устройство - (лицензия на 1 год)
Bamboo
Купить CommView for WiFi 1 лицензия
Allround Automation PL/SQL Developer - Unlimited license
Business Studio 4.2 Enterprise. Конкурентная лицензия + Business Studio Portal 4.2. Пользовательская именная лицензия.
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Программирование на Microsoft Access
CASE-технологии
OS Linux для начинающих. Новости + статьи + обзоры + ссылки
СУБД Oracle "с нуля"
Мастерская программиста
ЕRP-Форум. Творческие дискуссии о системах автоматизации
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100