Новый компонент Windows 7 - Windows TIFF IFilterИсточник: oszone
ВведениеWindows TIFF IFilter предоставляет возможность поиска документов TIFF основанных на текстовом содержимом. При загрузке Windows TIFF IFilter выполняет оптическое распознавание символов (optical character recognition OCR), обрабатывая изображения TIFF, а затем предоставляет полученный текст для построения поискового индекса. Windows TIFF IFilter выполняет поиск тех документов, которые содержат ясно распознаваемый текст (например, черный текст на белом фоне) и менее успешный для документов, которые содержат смешанное содержимое (например, нестандартные шрифты или текст, содержащий рисунки). Изображения низкого качества и смешанные языки могут отрицательно воздействовать на обработку OCR. В этом случае качество поисковых результатов снижается. Windows TIFF IFilter поддерживает все документы TIFF, которые определены спецификациями Adobe TIFF Revision 6.0 и включают самые распространенные форматы, например, LZW, JPG, CCITT v4, CCITT v6, а также несжатые форматы. Поскольку OCR - действие, которое потребляет много времени, Windows TIFF IFilter не устанавливается по умолчанию на операционных системах Windows 7 и Windows Server 2008 R2 и файлы TIFF индексируются, основываясь на базовых свойствах файла (например, имя файла, размер и дата изменения). Пользователи, которым необходимо искать файлы TIFF основываясь на текстовом содержимом, могут установить Windows TIFF IFilter при помощи текущего руководства. В этом руководстве описываются способы установки компонента Windows TIFF IFilter и его использования в Windows Desktop Search. Установка Windows TIFF IFilter в Windows 7Для установки Windows TIFF IFilter в Windows 7 выполните следующие действия:
После того, как вы завершите эти три шага, новые TIFF изображения, которые добавляются в директории, будут индексироваться по своему содержимому. Если в индексируемых директориях уже присутствуют TIFF изображения, они не будут проиндексированы до тех пор, пока пользователь не восстановит индекс, как описано ниже. Для этого: Настройки Windows TIFF IFilterУстановки предпочитаемых языков для оптического распознавания символовЭта настройка позволяет вам выбрать языки распознавания текста, которые принадлежат к одной из поддерживаемых кодовых страниц. Если этот параметр активен, то выбранные языки используются при выполнении распознавания текста в ходе индексирования TIFF-файлов. До тех пор, пока язык системы, используемый по умолчанию, не будет выбран в качестве языка распознавания текста, он будет игнорироваться. Если этот параметр политики отключен или не задан, используется только язык системы, используемый по умолчанию. Все выбранные языки распознавания должны принадлежать одной кодовой странице. Если выбраны языки, принадлежащие разным кодовым страницам, используется только язык системы, выбранный по умолчанию, а все остальные языки игнорируются. Установка предпочтительных языков OCR
Или воспользуйтесь твиком реестра (например, Кириллица 1251 - Русский и Украинский языки): Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows\Windows Search\OCR] "SelectOCRLangs"=dword:00000001 "Russian"=dword:00000419 "Ukrainian"=dword:00000422 Принудительное распознавание оптических символов для каждой страницы изображения документов TIFFЭта настройка позволяет вам отключить оптимизацию производительности. При отключении оптимизации производительности фильтр TIFF IFilter выполняет распознавание каждой страницы в документе TIFF, что позволяет индексировать весь распознанный текст. По умолчанию, для оптимизации производительности при распознавании фильтр TIFF IFilter пропускает страницы документа, которые содержат нетекстовое содержимое (например, изображения). В некоторых случаях страницы с текстом могут неправильно классифицироваться, например как страницы без текстового содержимого, а значит, текст на этих страницах не индексируется.
Или воспользуйтесь твиком реестра: Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows\Windows Search\OCR] "OCREveryPage"=dword:00000001 |