|
|
|||||||||||||||||||||||||||||
|
Автоматическое реферирование онлайнИсточник: upweek
Наиболее популярное применение компьютерной лингвистики в онлайне - сервисы-переводчики. В то же время весьма полезным дополнением к пользовательскому арсеналу также способны стать проекты автоматического реферирования текстов. Сокращенный пересказ позволяет оценить полезность объемного документа, быстро получить дополнительные ключевые слова для продолжения поиска и просто серьезно сэкономить свое время.
Начнем с многофункционального сервиса Visualworld. Здесь вы найдете собственный инструмент визуализации интернет-поиска, а также службу "Рефератор" (visualworld.ru/referat.jsp), которая представляет для нас прямой интерес. "Рефератор" предлагает задать собственный текст и получить его автоматически сгенерированный пересказ. Поддерживается загрузка текстовых файлов в форматах TXT, HTML, PDF, RTF и DOC(X). В зависимости от формата файл не должен превышать 100-500 Кбайт. Страница результата работы "Рефератора" состоит из двух колонок: в левой части показывается исходный текст, а в правой - реферат. Выглядит он как перечень основных тезисов текста. Объемом реферата можно управлять. Исходя из размера исходного текста, степень сжатия может варьироваться примерно от 40 до 90%. В целом качество сокращения достойное, сервис действительно может пригодиться в реальных ситуациях. Наилучшим образом ресурс справляется с извлечением конкретных фактов и цифр из текстов. Беллетристика обрабатывается заметно хуже, но и задача пересказа таких текстов гораздо сложнее. "Рефератор" извлекает отдельные фрагменты и выводит их в виде списка тезисов. При этом он может разделить слишком длинное, на его взгляд, предложение, что иногда снижает понятность. По сути, перед нами редкий пример бесплатного сервиса реферирования для текстов на русском языке. Если работать с английским языком, выбор будет гораздо шире. В основном это коммерческие решения, однако есть и парочка недурственных бесплатных сервисов. Весьма полезен в реальной практике сервис WikiSummarizer (www.wikisummarizer.com). Как нетрудно догадаться, он оптимизирован для обработки энциклопедических статей. Надо сказать, справляется он с ней достойно. Готовый реферат вполне читаем и позволяет составить достаточно полное впечатление о длинной статье. Примечательно, что это можно сказать как про технические, так и про гуманитарные материалы. Результаты работы алгоритма можно просмотреть в нескольких режимах. Visual Summary выводит на страницу визуальную иерархическую схему, построенную по принципу классических "карт разума" (Mind Map). В статье выделяются основные аспекты, ключевые слова которых отображаются в виде плашек. Кликнув по плашке, можно открыть соответствующие блоки текстовых выдержек. Кроме того, для каждого запроса формируется две стандартные плашки: краткий и полный реферат. Заметим, что реферат можно экспортировать в форматы популярных редакторов "карт разума", в том числе MindManager и iThoughts. Tree View выводит основные тезисы статьи в виде последовательных текстовых блоков. В результате получается очень близкое подобие обычного текстового конспекта. Этот режим очень удобен, когда нужно составить краткий пересказ англоязычного текста, поскольку получается неплохая "болванка", которую можно быстро довести до ума вручную. Более того, поддерживается прямой экспорт сгенерированного реферата в форматы RTF и HTML. Keyword Cloud - самый простой режим: он генерирует облако ключевых слов для статьи. Сфера его применения довольно ограниченна, поскольку собственно реферата здесь нет. Клик по слову из "облака" открывает реферат соответствующей Wiki-статьи в режиме Visual Summary. Стоит упомянуть и сервис WebSummarizer от этого же автора. Это "всеядный" проект, который оперирует как файлами, так и простым текстом. Кроме того, можно заказать реферирование любой произвольной веб-страницы на английском языке. Оно доступно уже по платной подписке, однако есть и триал-версия. Качество рефератов пусть и бывает немного ниже, чем при обработке энциклопедических статей, однако остается достойным. Инструменты просмотра и экспорта аналогичны уже рассмотренным для WikiSummarizer. Достаточно нетривиальный подход к обработке информации демонстрирует проект Topicmarks (topicsmarks.com). Он предлагает любопытную подборку инструментов. Ресурс не только создает текстовые рефераты, но и генерирует своеобразный предметный указатель ваших интересов. Генерируется он на основе анализа загружаемых документов. В качестве исходного материала могут выступать не только простые текстовые файлы и веб-страницы, но и файлы в форматах MS Office и OpenOffice. Более того, Topicmarks умеет работать совместно с популярнейшей записной книжкой Evernote. Замечательной функцией является поддержка "Документов Google" и агрегатора Google Reader. В настоящее время сервис находится в режиме бета-тестирования. Уникальная особенность Topicmarks - способность устанавливать связи между различными документами. По мере накопления архива данная возможность становится все более и более полезной, поскольку позволяет относительно быстро сгруппировать тематический материал, полученный из различных источников. Есть еще один способ получения рефератов, который вообще не требует каких-либо исследований в области компьютерной лингвистики. Речь идет о сервисах, которые предлагают составлять рефераты тех или иных материалов пользователям. В этой нише действуют такие сервисы, как Triond (www.triond.com) и Shvoong (ru.shvoong.com). Оба ресурса используют похожую модель: автор регистрируется на сайте и составляет краткие пересказы книг или статей различной тематики. Schvoong - пример сервиса, для которого рефераты пишут сами пользователи Выбор материалов остается на его совести. При желании можно оставить нужный вам текст - возможно, кто-либо из авторов проекта сделает для него реферат. Далее создатели рефератов получают вознаграждение за просмотры своих трудов. Оплачивается все это за счет размещаемой на ресурсе рекламы. Есть у названных проектов и отличия. Если не вдаваться в тонкости оплаты труда, то первое и наиболее заметное - языковая поддержка. Triond понимает исключительно англоязычные тексты. Разработчики же Shvoong попытались создать настоящего полиглота: на сайте присутствуют разделы для нескольких десятков языков, в том числе русского. А вот по возможностям иллюстрирования рефератов выигрывает Triond - он поддерживает добавление картинок и видео. Эта опция довольно полезна для статей, содержащих схемы и другие материалы, без которых многие тексты теряют свой смысл. Что же предлагает тот же Shvoong для простого посетителя? Русский раздел сервиса содержит каталог выполненных рефератов. Направленность самая разнообразная: от художественной литературы до научно-популярных статей. Для каждой темы создан соответствующий RSS-канал. Качество рефератов, скажем так, разное. Есть и неплохие работы, преимущественно в "естественно-технической" тематике. Сервис Topicmarks не только реферирует тексты, но и строит сводный предметный указатель вашего архива Присутствуют и откровенно слабые материалы, больше похожие на простые аннотации, а не на полноценные рефераты. Скорость обновления разделов невысока: несколько рефератов в день. В англоязычном разделе дела идут веселее, однако количество обновлений даже популярных категорий все равно не превышает десятка в день. Взглянем на Shvoong с точки зрения обычного юзера. Сфера применения такого сервиса немного размыта. На замену лент новостей он не тянет: не та скорость пополнения и объемы. Если доводить идею ресурса до логического завершения, то наиболее выгодным, пожалуй, был бы вариант оперативного получения рефератов наиболее востребованных новых материалов по выбранной вами теме. Рассматривать Shvoong как инструмент такого информирования пока не получается: возможности "заказа" темы здесь нет, обновления могут быть случайными, а при отправке собственного текста придется ждать, пока на него обратят внимание авторы, да и качество не гарантировано. Справедливости ради отметим, что подобные службы уже есть, однако коммерческого характера. Бесплатно предлагать такую услугу в Сети пока никто не торопится, что, в общем-то, вполне понятно Ссылки по теме
|
|