Интернет-поиск будущего: командуем голосом

Источник: CNews

Сергей Филимонов

По оценкам исследовательской компании IDC, в этом году объем информации, хранящейся в компьютерных системах всего мира, достигнет 5,444 экзабайт. Для сравнения, всего 5 лет назад, в 2003 году, этот показатель был в 6,5 раза меньше - 831 петабайт. Чтобы понять, много это или мало, достаточно сказать, что за всю свою многотысячелетнюю историю человечество накопило в книгах "только" 200 петабайт. Сокращения темпов роста информационных потоков в ближайшее время не предвидится. Поэтому если не найти способ эффективно обрабатывать такое количество данных, человечество ожидает то, что специалисты называют "аналитическим параличом". Поиск и использование нужной информации становятся все более сложными, трудоемкими и неэффективными, несмотря на огромные прикладываемые усилия. Поэтому поиск новых подходов, в том числе и для работы с интернетом, связующей нитью информационных залежей, является одной из самых актуальных.

Слово - запрос - результат

Сегодня практически весь поиск в интернете осуществляется при помощи ключевых слов. Однако этот метод себя полностью исчерпал. Большей релевантности результатов и скорости поиска, чем у нынешних лидеров, достичь практически невозможно. И у тех, кто работает исключительно методом ключевых слов, нет ни малейшей надежды хоть как-то приблизиться к Google. Строго говоря, и сам Google давно не использует чистый поиск по ключевым словам - в ход идут более сложные алгоритмы. Более того, традиционные методы представления информации весьма далеки от идеала. Пользователь получает тысячи, а то и десятки тысяч ссылок, но никогда не доходит дальше 30-й ссылки. А подавляющее большинство ограничиваются просмотром первых 5-7 результатов. И если ответа в них нет, пользователь, как правило, переформулирует запрос. Кроме того, практически невозможно отследить связи искомых слов с другими объектами и явлениями.

Семантический Веб

Концепцию Semantic Web (SW, "Семантической паутины", не путать с термином "семантическая сеть") выдвинул в мае 2001 года Тим Бернерс-Ли - один из основоположников WWW. SW - это надстройка над существующим интернетом, которая призвана сделать размещенную в ней информацию более понятной для компьютеров и обеспечить таким образом более эффективную машинную обработку контента. В семантической паутине предполагается повсеместное использование, во-первых, универсальных идентификаторов ресурсов (URI) (которые, кстати, появились задолго до идеи SW), а во-вторых - языков описания метаданных. Иными словами, каждый ресурс, кроме видимого текста и графики, снабжается метатегами - невидимыми для пользователя метками, хранящими данные о сути и содержании ресурса. Концепция была принята и продвигается Консорциумом W3.

Что делать в такой ситуации? Один из вариантов можно назвать продвинутым статистическим методом. Он подразумевает отслеживание профилей пользователей, использующих одни и те же ключевые слова. Собирая и анализируя результаты, можно вскоре обнаружить, что эти пользователи "кластеризируются", собираются в некие группы - по интересам, по демографическим, социальным и другим признакам. И для каждого из кластеров можно сделать отдельную индексацию, "рэнкинг". Но, как отмечают специалисты, данный подход, скорее, технический и далеко не самый эффективный.

Гораздо лучшие перспективы имеет другой метод, основанный на обработке естественного человеческого языка. Такой путь подразумевает использование разработок искусственного интеллекта, так как для понимания фразы недостаточно знания одной лишь лингвистики - требуются знания психологии и знания о мире в целом. Попытки "научить" компьютер понимать простые человеческие фразы начали предприниматься давно. Первые исследования относятся к 1970-м годам прошлого века, именно тогда были заложены теоретические основы обработки естественного языка (ЕЯ). Кстати, именно в ходе этих исследований параллельно развивалось и побочное направление - поиск по ключевым словам.

Далее произошло интересное - когда выяснилось, что на тогдашнем уровне развития как электроники, так и методов компьютерной лингвистики сколько-нибудь толковой обработки ЕЯ добиться нереально, обратились к тому самому "побочному эффекту". И поиск по ключевым словам стал мейнстримом, а самих пользователей приучили выражать свои потребности строго определенным образом - за 20 лет выросло целое поколение, привыкшее работать в парадигме Yahoo и Google. Кроме ключевых слов, эта парадигма подразумевает некоторый язык запросов: логическое "и/или" и, что значительно реже, логическое "не". Но, несмотря на все успехи, естественный язык сопротивляется таким методам в силу своей многозначности и метафорики. Поэтому результаты поиска оказываются недостаточно точными.

Так кто же убьет Google?

Чтобы выйти из тупиковой ситуации, поисковые системы стали применять более сложные алгоритмы. Выделились два основных направления. Первое заключается в развитии компьютерной лингвистики, чтобы поисковик мог лучше понимать как язык запроса, так и смысл контента каждого ресурса. Второе направление, на котором поднялся Google, - статистический метод, то есть оценка взаимных ссылок, частоты использования и рейтингование на основе этих результатов. С точки зрения эффективности пока выигрывают статистические машины. Но все единогласно признают, что будущее за лингвистическими методами и обработкой естественного языка. Семантический анализ текстов должен вот-вот выстрелить, но вот только никто не знает, когда именно. Сообщения о появлении очередного "убийцы Google" появляются с завидной регулярностью. Однако в большинстве случаев они оказываются фальстартами.

Сместить лидера поиска с его трона пока не удалось никому, зато наиболее продвинутые проекты сумели занять свою определенную нишу. Но, что более важно, они обрисовали пути будущего развития. Например, поисковый сервер Hakia предложил принципиально иной способ визуализации результатов - так, чтобы пользователь мог видеть не отдельные деревья, а карту всего леса. Hakia выдавал результаты графически, в виде карты, похожей на карту звездного неба. Только вместо звезд на плоскости стояли ключевые слова, расстояние между которыми определялось семантически. Термины группировались в кластеры, получалась некая ячеистая структура, которую при помощи увеличения можно было рассматривать более подробно. Некоторое время Hakia выдавал результаты в виде этих графов, но вскоре выяснилось, что для рядового пользователя такие карты слишком сложны, да и не особенно нужны. Такое представление информации хорошо только для экспертов, но их число невелико. В результате Hakia сделала шаг назад - сейчас результаты показываются в традиционной текстовой форме.

По словам профессора Владимира Хорошевского, заведующего сектором "Интеллектуальные прикладные системы" Вычислительного центра РАН и научного консультанта компании "Авикомп Сервисез", убийца Google должен обладать следующими качествами: во-первых, он должен уметь производить полную семантизацию всего контента, который индексируется поисковой машиной, во-вторых, необходим естественный языковый интерфейс и, в-третьих, представление результата должно выглядеть намного удобнее, чем у нынешних поисковиков. По мнению Хорошевского, на сегодня ни один из поисковиков не обладает такими свойствами. Над семантической обработкой текстов уже вовсю трудятся ведущие поисковики, однако в отличие от дерзких, но маленьких убийц они не афишируют своих разработок. "Поисковая система должна уметь понимать тексты на естественном языке. И здесь "Яндекс" находится в середине длинной дороги, причем, как нам кажется, мы прошли по этому пути чуть дальше прочих. Например, "Яндекс" понимает, когда речь идет о людях или организациях, умеет выявлять связи между объектами", - сказал Илья Сегалович, директор по технологиям и разработке компании "Яндекс".

В поиске метаданных

Еще одна концепция, призванная помочь рассортировать разрозненное содержимое интернета была высказана и одобрена Консорциумом W3 в самом начале "нулевых" и получила название "семантической паутины". Согласно этой концепции, для облегчения и увеличения эффективности машинной обработки каждый интернет-ресурс должен дополняться специальными ссылками - универсальными идентификаторами ресурсов (URI). URI - это короткая строка, позволяющая идентифицировать какой-либо ресурс: документ, изображение, файл, службу, ящик электронной почты и т. д. Также были введены форматы для машинной обработки - RDF (модель для описания ресурсов, в особенности - метаданных о ресурсах. В основе этой модели лежит идея об использовании специального вида утверждений, высказываемых о ресурсе), OWL (язык онтологии для интернета на основе XML/Web стандарта) и др. Едва появившись, эта концепция навлекла на себя шквал критики, зачастую вполне оправданной. Главный аргумент, который выдвигали скептики, - практическая нереализуемость полной классификации содержимого сети. Во-первых, мало кто из создателей контента захочет выполнять лишнюю работу по разметке, классификации и добавлению метаданных для уже готового проекта. Во-вторых, совершенно непонятно, кто возьмет на себя труд по переписыванию по новым правилам уже созданного контента. Третье ограничение имеет под собой философскую основу: со времен Аристотеля считается, что не существует очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня, необходимой для всеобъемлющей классификации информации о мире.

"Вариант, когда авторы будут вносить семантическую разметку в создаваемые ими тексты, то есть специальным образом помечать и всю страницу, и каждый ее фрагмент, например, указывать авторство, дату создания текста, упомянутые в нем организации и т.д., кажется нам совершенно утопическим, - говорит Илья Сегалович. Выход из этой ситуации видится в разработке современных и мощных средств автоматизации разметки, пользуясь которыми создатели контента могли бы избавиться от дополнительной докучливой работы. Обязанность по расстановке метатегов постепенно будет забирать на себя специальное ПО. Таким образом можно будет привести в должный вид хотя бы вновь создаваемый контент. При этом не нужно делать использование таких средств обязательным - те, кто пренебрегут созданием метаданных, пусть и в автоматическом режиме, просто вымрут эволюционно - они спустятся на нижние строчки и дальние страницы поисковиков, где их никто не увидит.

На службе бизнеса

Другой, при этом более вероятный, вариант развития событий - внедрением метаданных в массы займутся сами поисковики, поскольку они кровно заинтересованы в высокой релевантности своих результатов. Поисковые серверы могут открывать специальные сервисы, на которые будут подписываться сами контент-провайдеры и получать семантическую разметку контента непосредственно от поисковиков. И уже на основе этих RDF будет проводиться индексация ресурсов. Похожие воплощения уже есть, наиболее известный пример - созданный Yahoo проект SearchMonkey. "Поисковая обезьяна" предоставляет всем заинтересованным создателям контента инструмент для самостоятельной семантизации содержимого ресурса. Существенный минус SearchMonkey - этот процесс приходится проводить вручную, автоматизация развита слабо, а значит и трудозатраты достаточно велики.

Этапы разработок в области компьютерной обработки естественного языка (ЕЯ)

1960-е - середина 1970-х гг. - Разработка формальных моделей и методов, накопление начального опыта в прототипизации ЕЯ-систем.

Середина 1970-х - 1980-е гг. - Создание методов и средств обработки ЕЯ, первых промышленных систем общения с базами данных на ЕЯ.

Середина 1980-х - середина 1990-х гг. - Разработка когнитивных моделей понимания ЕЯ и прототипов систем, использующих модели мира для понимания языка.

Середина 1990-х гг. - начало 2000-х гг. - Переход от лингвистики предложения к лингвистике текста, разработка методов и средств обработки ЕЯ-текстов. Появление первых коммерческих систем обработки ЕЯ-текстов.

"Другой аспект Semantic Web - использование разметки, кем бы она не была сделана (авторами сайтов или поисковыми системами), выглядит более привлекательным. И все, что сейчас уже делается в области автоматического понимания текста - выделение поисковыми системами объектов и определение связей между ними, классификация страниц и их идентификация - по сути и есть настоящий Semantic Web, только не такой идеальный, как казалось прародителям идеи", - комментирует Илья Сегалович из "Яндекса".

Если попытки "причесать" весь интернет пока далеки от воплощения в силу грандиозности самой задачи, исследования в области понимания естественного языка дали свои плоды, притом весьма неплохие, в более узкой области - автоматизации различных задач бизнеса. Сегодня существует немало ИТ-компаний, которые создают продукты, предназначенные для поиска или мониторинга необходимой информации в необъятных корпоративных данных. Подробный список таких решений приведен в таблице "Не только для интернета". Успешные воплощения есть и в России - в частности продукт Ontos компании "Авикомп Сервисез" инсталлирован в отечественных силовых ведомствах. Его главная задача - мониторинг информации по определенным темам в открытых источниках, то есть анализ СМИ. Ведь давно не секрет, что внимательное чтение газет зачастую приносит гораздо больше разведданных, чем внедрение своего резидента в штаб врага.

Делать прогнозы о том, как будут развиваться поисковики в дальнейшем, - дело неблагодарное, слишком динамична эта область. Но можно сделать некоторые предположения. Во-первых, будущее за семантизацией контента, которая позволит проводить высокоточный поиск на основе понимания смысла запросов пользователей. Общение будет осуществляться на естественном языке, причем это будет диалог пользователя и поисковика, если последнему потребуется уточнение смысла запроса. И, наконец, возможным сценарием развития поисковых машин представляется вариант, когда информационный поиск в его современном понимании исчезнет, а вместо него появятся интеллектуальные системы "вопрос-ответ". То есть, когда пользователь спрашивает дату рождения Л.Н. Толстого, ему не нужны десятки и сотни ссылок. Он будет получать один ответ -1828 год.