Интеграция данных с SAP NetWeaver Business Intelligence при помощи IBM Information ServerИсточник: ibm Джефф Джей. Ли (Jeff J. Li), инженер-программист, консультант, Department13
SAP BI предоставляет решение Enterprise Data Warehouse для пользователей SAP по консолидации и анализу бизнес-данных. Предприятия могут использовать SAP BI для обеспечения своей деятельности данными, реагирования на изменения рынка и повышения конкурентоспособности. В SAP NetWeaver 2004 SAP BI назывался SAP Business Information Warehouse (SAP BW). Создание хранилища данных SAP BI - это сложный проект. Он включает себя различные задачи, такие как планирование, моделирование данных, классификация данных, проектирование ETL-заданий и настройка производительности. Проектирование ETL-заданий по загрузке данных и их извлечению из SAP BI часто является самой затратной по времени задачей. IBM Information Server - это унифицированная и комплексная платформа по интеграции информации. Предприятия могут использовать IBM Information Server для подключения к различным источникам данных, извлечения и обработки данных, предоставления обработанной и высококачественной информации. В SAP BI проектах IBM Information Server может использоваться как эффективное инструментальное средство ETL для обработки данных большого объема и для создания корпоративного хранилища данных (enterprise data warehouse). Терминология, используемая в данной статье, объясняется в приложении "А". В приложении "B" приводится список инструментальных средств для работы с рассмотренными здесь примерами.
Необходимые продукты и их установка IBM Information Server содержит много программных продуктов для задач интеграции данных и их анализа. К этим продуктам относятся WebSphere® DataStage®, WebSphere QualityStage®, WebSphere Information Analyzer, WebSphere Federation Server и другие сопутствующие продукты. В зависимости от требований конкретного проекта можно установить подмножество продуктов IBM Information Server. Рисунок 1. Программные средства, необходимые для проектирования ETL- заданий для SAP BI и SAP BW
На рисунке 1 показан минимальный набор продуктов IBM Information Server, необходимых для проектирования ETL- заданий для SAP BI или хранилища данных BW.
Компоненты программного обеспечения, показанные на рисунке 1, играют разные роли в процессе проектирования и выполнения ETL- заданий для SAP BI.
DataStage BW Pack содержит четыре основных компонента:
DataStage-задания могут быть спроектированы для извлечения, подготовки (очистки) и консолидации данных из не-SAP источников и для загрузки данных в системы SAP BI. Например, можно извлечь данные о клиенте из приложений CRM и найти его заказы в приложениях обработки заказов. Консолидированные заказы могут быть загружены в систему SAP BI для анализа. В данном разделе используется простое ETL-задание с целью демонстрации шагов, необходимых для загрузки данных в систему SAP BI. На рисунке 2 показан пример задания. Задание извлекает данные о клиенте из таблицы базы данных Oracle®, используя ODBC Stage. Извлеченные данные передаются в BW Load Stage LoadDataToSAPBI, который загружает обработанные данные в CUSTOMER Characteristic системы SAP BI. В таблице 1 показан пример данных в таблице базы данных Oracle. CUSTOMER Characteristic создается в SAP BI при помощи среды SAP Data Warehousing Workbench, показанной на рисунках 3 и 4. Рисунок 2. DataStage-задание для загрузки данных в SAP BI Таблица 1. Пример данных в таблице базы данных Oracle
Рисунок 3. CUSTOMER Characteristic в SAP BI Рисунок 4. CUSTOMER Characteristic в SAP BI - закладка Attribute Рисунок 5. Блок-схема потока данных операции загрузки данных BI
На рисунке 5 показана блок-схема потока данных операции загрузки данных BI.
BW Load Stage предоставляет Stage Editor (см. рисунок 6). Stage Editor содержит несколько закладок для установки разнообразных параметров операции загрузки BI.
Рисунок 6. BW Load Stage Editor
BW Load Stage LoadDataToSAPBI на рисунке 2 загружает данные таблицы 1 в SAP BI. Настройка фазы BW Load Stage происходит в несколько шагов. Эти шаги показаны на рисунке 7. В следующих разделах они описываются подробно. Рисунок 7. Настройка фазы BW Load Stage LoadDataToSAPBI
Свойства BI-подключения настраиваются в закладке General (см. рисунок 6). Для создания, выбора или изменения BI-подключений предоставляются элементы меню. На рисунке 8 показано диалоговое окно нового подключения. Новое BI-подключение DEMOCONN сохраняется на сервере DataStage и может быть повторно использовано для проектирования других DataStage-заданий, выполняющих операции с BI-данными. Рисунок 8. Диалоговое окно свойств подключения
Свойства источника данных настраиваются в закладке Transfer Structure, показанной на рисунке 9. Для создания, выбора или просмотра источников данных предоставляются элементы меню. В SAP BI источником данных может быть однородный (flat) файл, SAP-система, база данных, многомерный источник данных, Web-сервис или внешнее приложение, реализующее интерфейс Staging BAPI. BW Load Stage использует Staging BAPI для обмена метаданными с SAP BI и для загрузки данных в SAP BI. Рисунок 9. Закладка Transfer Structure
Элемент меню New… на рисунке 9 создает новый источник данных. После его создания BW RFC Manager начинает новый процесс на BW RFC Server. Процессы RFC Server ожидают запросы на загрузку данных от SAP BI и запрашивают соответствующие DataStage-задания для запуска операций загрузки данных. Новый источник данных сохраняется на сервере DataStage для дальнейшего повторного использования. На рисунке 10 показано, что создается новый источник данных DEMODSSRC. Процесс BW RFC Server для нового источника данных автоматически создается на сервере DataStage и регистрируется с SAP BI как программа <hostname>.DEMODSSRC. Как показано на рисунке 11, для просмотра и тестирования RFC-назначения для нового источника данных может использоваться SAP-транзакция sm59. Рисунок 10. Создание источника данных
InfoSource устанавливается в закладке Transfer Structure, показанной на рисунке 12. Для создания, обновления, просмотра и поиска характеристик SAP BI, ключевых схем (key figures) и InfoSources предоставляются элементы меню. Рисунок 12. Элементы меню InfoSource
Элемент меню Create Master InfoSource from Existing Characteristic… создает InfoSource, основанный на существующих характеристиках. При выборе этого элемента меню необходимы два последовательных действия пользователя:
Как показано на рисунке 15, BW Load Stage создает указанный InfoSource в SAP BI. В закладке Transfer Structure (см. рисунок 16) выбирается также InfoSource. Рисунок 16. Выбор нового InfoSource
Настройка определения таблицы DataStage После выбора InfoSource в закладке Transfer Structure создается определение таблицы DataStage на основе структуры передачи InfoSource. На рисунке 17 показано определение таблицы. Таблица 2 показывает, как типы данных SAP отображаются на типы данных DataStage. Определение таблицы может быть проверено и синхронизировано с полями InfoSource при помощи кнопок Validate Columns и Synchronize Columns. Таблица 2. Таблица отображения типов данных
InfoPackage настраивается в закладке InfoPackage, показанной на рисунке 18. InfoPackage - это точка входа SAP BI для запроса данных из источника данных. InfoPackage определяет, когда и как DataStage-задание загружает данные в систему SAP BI. Закладка InfoPackage создает и выбирает InfoPackage. Закладка позволяет также настраивать свойства InfoPackage (см. рисунок 19). Рисунок 18. Закладка InfoPackage Рисунок 19. Диалоговое окно InfoPackage property
BW Load Stage поддерживает три механизма загрузки данных:
Для поддержки инструментальных средств интеграции сторонних поставщиков (например, DataStage BW Pack) определяются third-party-параметры InfoPackage. Как показано на рисунке 20, в качестве third-party-параметра для нового InfoPackage DEMO Pull InfoPacakge автоматически устанавливается DataStage-задание BILoadJob. Рисунок 20. third-party-параметры InfoPackage
Использование third-party-параметров в процессе загрузки BI-данных можно описать так:
Настройка последовательности процессов Последовательность процессов настраивается в закладке Process Chain. Этот шаг не обязателен. BW Load Stage может работать и без последовательности процессов. Последовательность процессов определяет ряд зависимых процессов, связанных между собой. Выполнение InfoPackage - это один из типов процессов, определяемых SAP BI. Как показано на рисунке 21, выполнение InfoPackage DEMO Pull InfoPacakge добавляется как процесс в последовательность процессов Demo Load Chain. На рисунке 22 выбрана последовательность процессов Demo Load Chain. Рисунок 21. Выполнение задания по загрузке данных как части последовательности процессов Рисунок 22. Выбор последовательности процессов
Запуск операции загрузки данных Последовательность процессов Demo Load Chain должна быть запланирована на запуск вашей операции загрузки BI-данных. Последовательность процессов можно запустить двумя способами:
В данном примере сначала запускается DataStage-задание для активизации последовательности процессов. На рисунке 25 показано, что DataStage-задание успешно выполняется. На рисунке 26 показано, что исходные данные загружены в SAP BI. Рисунок 25. Запуск DataStage-задания Рисунок 26. Данные, загруженные в SAP BI
Фаза BW Extract Stage извлекает данные из системы SAP BI. Извлеченные данные можно передать в не-SAP приложения. Фаза BW Extract Stage основана на сервисе SAP Open Hub Service, который определяет управляемый и контролируемый процесс экспорта данных. В данном разделе используется простое ETL-задание для демонстрации шагов по извлечению данных из системы SAP BI. На рисунке 27 показан пример задания. Задание извлекает данные из характеристики SAP BI CUSTOMER (см. рисунок 4). Это задание затем обрабатывает извлеченные данные, используя фазу DataStage Transformer Stage, и сохраняет результаты обработки в однородный файл. Рисунок 27. DataStage-задание для извлечения данных из SAP BI
Фаза BW Extract Stage имеет редактор Stage Editor, показанный на рисунке 28. Stage Editor содержит четыре закладки для настройки различных свойств операции извлечения BI-данных. Рисунок 28. BW Extract Stage GUI
Фаза BW Extract Stage ExtractDataFromSAPBI (см. рисунок 27) извлекает данные из системы SAP BI. Для настройки фазы BW Extract Stage нужно выполнить несколько действий. Эти действия показаны на рисунке 29 и подробно описаны в следующих разделах. Рисунок 29. Настройка фазы BW Extract Stage ExtractDataFromSAPBI
Настройка BI Open Hub Destination и процесса передачи данных Фаза BW Extract Stage поддерживает оба назначения (BW InfoSpoke и BI Open Hub Destination) для извлечения данных. InfoSpoke - это центральная часть пакета Open Hub Service Pack в системе SAP BW. InfoSpoke указывает три свойства:
Сначала необходимо выбрать InfoSpoke, до того, как его можно будет выбрать в закладке Open Hub Destination. Фаза BW Extract Stage поддерживает создание InfoSpoke и использование InfoSpoke для извлечения данных. В системе SAP BI, назначение Open Hub Destination интегрировано в новый процесс передачи BI-данных и больше не является тесно связанным (tightly coupled) с InfoSpoke. Как показано на рисунке 30, процесс передачи данных преобразует данные из InfoProvider в Open Hub Destination. Когда данные в Open Hub Destination готовы, SAP BI уведомляет процесс DataStage RFC Server, который запускает DataStage-задание для извлечения данных из назначения Open Hub Destination. Для управления всем процессом извлечения данных создается последовательность процессов. Рисунок 30. Блок-схема операции извлечения BI-данных
Фаза Extract Stage ExtractDataFromSAPBI (см. рисунок 27) настраивается на основе BI Open Hub Destination. В данной статье не рассматривается использование традиционного BW InfoSpoke. Процесс создания BI-артефактов для данной фазы обобщен в следующих шагах:
Настройка источника данных и последовательности процессов Источник данных и последовательность процессов настраиваются в закладке Process Chain. Источник данных - это назначение для извлеченных данных. Последовательность процессов управляет процессом извлечения данных. На рисунке 35 в качестве источника данных выбран DEMODSSRC. Для фазы ExtractDataFromSAPBI в качестве последовательности процессов выбран CUSTCHAIN. Рисунок 35. Закладка Process Chain
Настройка Open Hub Destination Open Hub Destination настраивается в закладке Open Hub Destination, как показано на рисунке 37. Требуются два действия пользователя:
Выполнение операции извлечения данных Аналогично операции загрузки данных, последовательность процессов CUSTCHAIN должна быть запрограммирована на выполнение операции извлечения данных. Она может быть запущена либо DataStage-заданием BIExtractJob, либо средой SAP Data Warehousing Workbench. В данном примере для активизации последовательности процессов запускается DataStage-задание. На рисунке 40 показано успешное выполнение DataStage-задания, а на рисунке 41 показаны данные, извлеченные из SAP BI. Рисунок 40. Выполнение DataStage-задания Рисунок 41. Данные, извлеченные из SAP BI В данной статье мы рассмотрели, как интегрировать BI-данные SAP с другими BI-данными, используя IBM Information Server и пакет WebSphere DataStage SAP BW. Были рассмотрены процессы загрузки и извлечения данных SAP BI, а также новая функциональная возможность SAP BI - процесс передачи данных. Эти процессы проектирования были проиллюстрированы примерами в пошаговом режиме. IBM Information Server предоставляет передовую технологию и решения по интеграции для двух других важных проблем среды SAP BI Data Warehouse:
В настоящее время ведутся работы над другими решениями по интеграции SAP BI, включая прямой доступ к данным и управление метаданными. Усилия концентрируются на разработке быстрого и эффективного ETL-решения для создания корпоративных транзакционных хранилищ данных с элементами данных уровня документов.
Приложение B. Инструментальные средства
|