(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Импортирование документов Word в SQL Server

Источник: realcoding

Импортирование документов Word в SQL Server

Вопрос: Я хочу загрузить документы Microsoft Word в базу данных SQL Server, проиндексировать их и впоследствии использовать в реляционных запросах. Как это сделать?

Ответ: SQL Server позволяет выполнять импорт документов Word несколькими различными способами. Мы рассмотрим наиболее общие методики. Перед тем, как начать загрузку документов, нужно создать столбец, в котором будут храниться данные типа Image. После этого импортировать документы в SQL Server можно с помощью утилиты командной строки textcopy.exe, которая считывает image-файлы в базу данных. Чтобы получить представление о работе этой утилиты, наберите  textcopy /? . Другой подход для загрузки документов Word в SQL Server заключается в написании программного кода с использованием интерфейса ADO Stream. Пример подобного кода приводится в статье Microsoft "HOWTO: Access and Modify SQL Server BLOB Data by Using the ADO Stream Object" (http://support.microsoft.com/?kbid=258038).

Как вариант, можно переместить двоичные данные в SQL Server. В статье Microsoft "HOWTO: Retrieve and Update a SQL Server Text Field Using ADO" (http://support.microsoft.com/?kbid=180368) подробно разъясняется, как это сделать. При этом вы можете сохранять отдельные фрагменты данных и контролировать их формат. Например, если нужно сохранить только байты с 1000 по 1010, импортирование бинарных данных выполняется во много раз быстрее, чем с помощью интерфейса ADO Stream, поскольку SQL Server не должен считывать с диска весь документ Word. Нередко такая техника используется для сохранения бит-масок, представляющих собой включенные и выключенные настройки документа.

SQL Server 2000 поставляется с примером кода, демонстрирующим, как перемещать бинарные данные. Для просмотра этого кода обратитесь в каталог %Program Files%\Microsoft SQL Server\80\Tools\DevTools\Samples\ado, куда помещаются примеры программ с дистрибутивного компакт-диска SQL Server 2000. Затем перейдите в каталог Visual Basic (VB) для поиска подкаталога Samples. В примере Employee обратите внимание, как именно используется функция FillDataFields().

Для индексации документов Word в версии SQL Server 7.0 (и более поздних версиях) используется компонент полнотекстового поиска, в котором реализована смесь технологий индексации больших объемов текстовых данных и данных типа Image. При выполнении полнотекстового поиска нужно указать, файлы какого типа хранятся в столбце image и какой фильтр нужен для извлечения полезной информации из бинарных данных. Дополнительная информация об использовании полнотекстового поиска приводится в SQL Server  Books Online (BOL) . Надо иметь в виду, что индексирование документов Word не приводит к созданию таблиц, состоящих из ключевых слов документов Word. Однако в процессе индексирования таких файлов появляется возможность учесть документы Word при обращении к функциям поиска. Ниже приводятся способы извлечения ключевых слов из набора данных:

  • Используйте OLE Automation для чтения заданных ключевых слов. Сохраните эти ключевые слова в реляционных таблицах одновременно с загрузкой документа.

  • Используйте OLE Automation для открытия документа и его сохранения в текстовом формате (.txt). Для извлечения слов, представляющих особый интерес, обработайте содержимое файла специально написанным обработчиком - программой, которая считывает каждое слово документа, устраняет "шум" (например, предлоги, союзы) и сохраняет значащие уникальные слова вместе со счетчиком повторения каждого такого слова.

  • Выполните поиск для вновь проиндексированных документов на предмет обнаружения заданных слов, после чего внесите эти слова в реляционные таблицы.

    SQL Server 2000 располагает несколькими утилитами и интерфейсами, с помощью которых можно быстро загрузить документы в базу, выполнить поиск нужной информации и извлечь двоичные документы Microsoft Office

  • Ссылки по теме


     Распечатать »
     Правила публикации »
      Написать редактору 
     Рекомендовать » Дата публикации: 02.08.2012 
     

    Магазин программного обеспечения   WWW.ITSHOP.RU
    Microsoft Windows Professional 10, Электронный ключ
    Microsoft Office 365 Профессиональный Плюс. Подписка на 1 рабочее место на 1 год
    Microsoft 365 Apps for business (corporate)
    Microsoft 365 Business Basic (corporate)
    Microsoft 365 Business Standard (corporate)
     
    Другие предложения...
     
    Курсы обучения   WWW.ITSHOP.RU
     
    Другие предложения...
     
    Магазин сертификационных экзаменов   WWW.ITSHOP.RU
     
    Другие предложения...
     
    3D Принтеры | 3D Печать   WWW.ITSHOP.RU
     
    Другие предложения...
     
    Новости по теме
     
    Рассылки Subscribe.ru
    Информационные технологии: CASE, RAD, ERP, OLAP
    Безопасность компьютерных сетей и защита информации
    Новости ITShop.ru - ПО, книги, документация, курсы обучения
    Программирование на Microsoft Access
    CASE-технологии
    Мир OLAP и Business Intelligence: новости, статьи, обзоры
    ЕRP-Форум. Творческие дискуссии о системах автоматизации
     
    Статьи по теме
     
    Новинки каталога Download
     
    Исходники
     
    Документация
     
     



        
    rambler's top100 Rambler's Top100