Особенности извлечения знаний из текстов. Часть 1.Источник: synsysbiz Вязгина Елена
Исследования ведущих аналитиков показывает, что совокупный объем цифровой информации в 2006 году составил 161 миллионов гигабайт. Предполагается, что за период с 2006 по 2010 год объем информации увеличится более чем в шесть раз. В более чем 80% случаев такая информация является неструктурированной - это тексты естественного языка. Человеку становится все труднее ориентироваться в потоках поступающей информации. В связи с этим при обработке информации требуются новые инновационные подходы, ориентированные на задачи конкретных пользователей. Следует учитывать, что большая категория пользователей имеют определенные служебные обязанности, и соответственно, постоянные интересы. Им необходима вполне конкретная информация. Например, сотрудники информационно-аналитических подразделений выбирают из СМИ информацию об интересующих их событиях, катастрофах, террористических актах, персоналиях и др. Следователю важны фигуранты, места их жительства, телефоны, криминальные события, даты и др. Сотруднику кадровой службы нужно знать организации, где, кем и в какое время кандидат работал. Подобная информация называется информационными объектами или просто объектами [1,2,10]. Объекты различаются по типам. Каждая из перечисленных категорий пользователей интересуется набором объектов определенного типа. Находить нужные объекты в потоке текстов, читая их, во многих областях - непосильный труд. Для обеспечения подобных пользователей нужной информацией требуются средства автоматического извлечения объектов из текстов с их представлением в формах, удобных для восприятия или последующей обработки. Речь идет об автоматической формализации текстов, связанной с извлечением знаний (Knowledge Extraction). Это проблемная область, которая находится в сфере внимания исследователей. Ее актуальность постоянно растет [3,4,5]. Для этой цели на протяжении последних 15 лет в рамках проектов ИПИ РАН разрабатывались семантико-ориентированные лингвистические процессоры [6,7]. Их научная база: расширенные семантические сети (РСС), методики представления сложных видов знаний, инструментальная среда ДЕКЛ обработки структур знаний, сетевые позиционные грамматики, онтологии, морфологический анализ на основе обобщенных окончаний [1,2,14]. Последний вариант такого процессора, изготовленного совместно с ЗАО <Синергетические Системы> в виде модуля SDK, получил название Semantix . Продолжение следует. |