Аннотация
В данной работа рассмотрена задача вопросно-ответного поиска, исследована предметная область вопросно-ответного поиска и рассмотрены существующие решения для английского языка. Разработана и реализована модель простой вопросно-ответной системы для русского языка, проведена частичная оценка разработанной системы.
Введение
В последние годы наблюдается бурный рост объема общедоступной информации.
Вследствие чего появилась проблема для современного общества - проблема поиска и
получения нужной информации. Эту проблему усугубляет и то, что в настоящее время
информация, доступная в сети Интернет, имеет очень высокий уровень динамики. В
каждый момент времени появляются новые метриалы и факты. Постоянный рост объема
информационных массивов и их обновление делают сложным, а зачастую практически
невозможным , учёт всей информации. По причине этого данные, представляющие
ценность, зачастую остаются невостребованными.
В ХХI веке деятельность людей, коллективов, организаций и компаний в большей
степени зависит от имеющейся у них информации, а так же способности быстро её найти.
Имея доступ к представленной в сети Интернет информации пользователю хотелось бы
получать только нужную ему её часть, в то время как поисковые системы представляют
для этого малые возможности. Пользователю приходится самому продолжать искать
информацию среди предложенной ему поисковой машиной. При использовании
поисковиков пользователь получает большое количество ссылок на документы, и часто
ему требуется продолжать поиск интересующей его информации, что затрудняет её
восприятие. Таким образом получается противоречие между большим количеством
доступной информации и ограниченными возможностями по её поиск и получением.
Когда мы хотим что-то узнать, мы спрашиваем - задаём вопрос, что, в общем, и
естественно в процессе познания. Большинство систем по поиску информации, не имеют
возможности отвечать на наши вопросы. Для поиска и получения человеку нужно
сформировать запрос из ключевых слов и задать его поисковой машине.
В последнее время повысился интерес к разработке интеллектуальным и
нетрадиционным механизмам поиска и получения информации. Интернет стал
рассматриваться как потенциальная большая база знаний, для работы с которой требуются
специальные инструменты. Сегодня термин "информационный поиск" (англ. Information
retrieval) включает в себя поиск текстовых документов, поиск изображений, поиск видео,
многоязыковой поиск, географически-зависимый поиск. Помимо этого к информационному
поиску можно причислить и поиск ответа на вопрос. В последние годы
увеличилось количество проектов таких систем в данной области - поиска ответа на
вопрос на естественном языке. Вопросно-ответные системы - это программные
комплексы, которые умеют обрабатывать введенные пользователем вопросы на
естественном языке и давать на них краткие ответы, состоящие из слов или предложений.
В отличие от традиционных поисковых машин системы вопросно-ответного поиска могут
обрабатывать вопрос на естественном языке и выдавать не список ссылок и документов, а
ответ - сжатый и лаконичный. Вопросно-ответные системы имеют другую цельпо
сравнению с традиционными система информационного поиска. Их задача - найти
фрагмент документа, содержащий точный и краткий ответ на вопрос. Источником
информации для таких систем обычно служит большая коллекция текстовых документов,
например, общедоступные страницы сети Интернет. Таким образом, вопросно-ответные
системы образуют класс интеллектуальных систем информационного поиска.
При разработке и реализации вопросно-ответных систем приходится иметь дело с
естественным языком, а именно с фразами и предложениями, сформированные по
опрделенным правилам этого языка. Поэтому создание систем вопросно-ответного поиск
- далеко не простая задача. При проектировании таких систем используются
относительно новые методы компьютерной лингвистики (англ. NLP - Natural Language
Processing), требуется применение адекватных лингвистических средств по работе с
естественным языком, при этом результат работы системы существенно зависит от
качества из реализации.
В последние годы появилось немало проектов в данном направлении. Причем это
проекты, в которых разработаны технологии обработки простых вопросов, ответы на
которые состоят из одного слова или небольшого предложения. Эти проекты обходят
стороной вопросы более сложного вида, например, вопросы причины, описания объектов
и т.д.
Авторы большинства создаваемых в настоящее время систем вопросно-ответного
поиска ориентируются в основном на английский язык. Типовая система состоит из
большинства сложных частей, которые предназначены для анализа вопроса и обработки
текстовых документов с учетом правил и особенностей естественного языка. Например,
при анализе вопроса происходит синтаксический и семантический разбор предложения.
Части и подпрограммы анализа разрабатываются обычно независимыми группами и, как
уже было отмечено, работают с английским языком. Поэтому для русского языка
Любая серьезная система вопросно-ответного поиска должна каким-либо образом
производить анализ структуры вопросительного предложения, опираясь на знания о
конкретном естественном языке, на котором сформулирован вопрос. Вследствие этого
изучение и сравнение решений, рассчитанных на разные языки - практически
невыполнимая задача. Однако для исследования принципов работы существующих
систем, технологий решения задачи вопросно-ответного поиска, позволят сделать вывод о
глубине анализа и обработки вопросительных предложений и текстовых документов, что
будет использовано при построении системы для русского языка.
Файлы для загрузки