ERwin на службе у банков

Источник: info-system

"ERwin настолько прост, что нового специалиста можно
обучить ему за день-другой, и настолько многофункционален, что
соответствует нашим самым взыскательным потребностям".
Л. Хенден, Pricewaterhouse Coopers

Проектирование хранилищ данных

В Древней Греции тогдашние банкиры давали отчет на площади в присутствии всех граждан, а затем цифры выбивались на камне. Представьте себе, сколько камней потребовалось бы для ведения записей современным банкам! Сегодня для хранения и обработки информации в банковском бизнесе применяются передовые достижения в области IT-технологий - хранилища данных, OLAP, B2B. В этой статье мы рассмотрим процесс создания и использования хранилищ данных с помощью средства ERwin компании Computer Associates.

Что такое Data Warehouse?

Хранилище данных (Data Warehouse) - это отдельная база данных, в которой аккумулируется вся самая разнообразная информация, необходимая менеджерам банка для подготовки управленческих решений: о клиентах банка, операционных днях филиалов, кредитах, процентных ставках, курсах валют и т. д. При этом хранилище оснащено инструментами для быстрой и несложной настройки на новые виды данных, то есть оно может непрерывно развиваться.

В целях экономии времени руководителей любая запрошенная информация предоставляется очень быстро. Для этого в хранилище содержатся заранее вычисленные показатели, например обороты балансовых счетов за день, квартал, год.

Огромные объемы данных хранилища легко использовать за счет того, что в хранилище изначально встроены удобные инструменты поиска информации, средства оперативного анализа (OLAP) и генераторы отчетов. Хранилище снабжено мощной системой загрузки данных из разных источников, при этом в процессе загрузки происходит автоматическое согласование и очистка данных от ошибок.

Из опыта создания хранилищ данных

К необходимости создания хранилищ данных российские банки пришли уже давно. Как правило, хранилища данных оперируют с огромными объемами информации, что предъявляет к их проектированию и реализации повышенные требования. Выбор в качестве платформы хранилища данных такой высокопроизводительной РСУБД позволяет существенно повысить общую эффективность создаваемой информационной системы. Для этих целей используются мощные инструменты графического проектирования информационных систем - так называемые CASE-средства (CASE расшифровывается как Computer Aided System Engineering), например ERwin компании Computer Associates.

В создании хранилищ данных ERwin становится незаменимым инструментом, поскольку, с одной стороны, эффективно поддерживает на физическом уровне проектирование объектов РСУБД, с другой стороны, имеет специализированные средства моделирования хранилищ данных. Ниже рассматриваются основные возможности ERwin по проектированию хранилищ данных.

К проектированию хранилищ данных обычно предъявляются следующие требования:

  • Структура данных хранилища должна быть понятна пользователям.
  • Должны быть выделены статистические данные, которые регулярно модифицируются: ежедневно, еженедельно, ежеквартально.
  • Требования к запросам должны быть упрощены с целью исключения запросов, которые могли бы требовать множественных утверждений SQL в традиционных реляционных СУБД.
  • Должна быть обеспечена поддержка сложных запросов SQL, которые требуют последовательной обработки тысяч или миллионов записей.

Именно выполнение этих требований отличает структуру хранилищ данных от структуры реляционных СУБД и хранилищ данных. Нормализация данных в реляционных СУБД приводит к созданию множества связанных между собой таблиц. В результате выполнение сложных запросов неизбежно влечет за собой объединение многих таблиц, что существенно увеличивает время отклика. Проектирование хранилища данных подразумевает создание денормализованной структуры данных (допускается избыточность данных и возможность возникновения аномалий при манипулировании данными), ориентированной в первую очередь на высокую производительность при выполнении аналитических запросов. Нормализация делает модель хранилища слишком сложной, затрудняет ее понимание и ухудшает эффективность выполнения запроса.

Как работает ERwin?

Размерная (Dimensional) модель. Для эффективного проектирования хранилищ данных ERwin использует размерную модель. Размерная модель - это методология проектирования, специально предназначенная для разработки хранилищ данных. Наиболее простой способ перейти к нотации размерной модели при создании новой модели (меню File/New) в диалоге ERwin Teamplate Selection - выбрать из списка предлагаемых шаблонов DIMENSION. В шаблоне DIMENSION сделаны все необходимые для поддержки нотации размерного моделирования настройки, которые, впрочем, можно установить вручную.

Моделирование Dimensional сходно с моделированием связей и сущностей для реляционной модели, но отличается целями. Реляционная модель акцентируется на целостности и эффективности ввода данных. Размерная модель ориентирована в первую очередь на выполнение сложных запросов к БД.

Роль таблицы в схеме (Dimensional Modeling Role). По умолчанию ERwin автомати чески определяет роль таблицы на основании созданных связей. Таблица без связей определяется как таблица размерности, таблица факта не может быть родительской в связи, таблица размерности может быть родительской по отношению к таблице факта, консольная таблица может быть родительской по отношению к таблице размерности.

Правила хранения данных (Data Warehouse Rules). Для каждой таблицы можно задать шесть типов правил работы с данными: обновление (Refresh), дополнение (Append), резервное копирование (Backup), восстановление (Recovery), архивирование (Archiving) и очистка (Purge). Для задания правила следует выбрать имя правила из соответствующего списка выбора. Каждое правило должно быть предварительно описано в диалоге Data Warehouse Rule Editor. Для каждого правила должно быть задано имя, тип, определение. Например, определение правила дополнения данных может включать частоту и время дополнения (ежедневно, в конце рабочего дня), продолжительность операции и т. д. Связать правила с определенной таблицей можно с помощью диалога Table Editor.

При проектировании хранилища данных важно определить источник данных (для каждой колонки), метод, которым исходные данные извлекаются, преобразовываются и фильтруются, прежде чем они импортируются в хранилище данных. Хранилище данных может объединять информацию из текстовых файлов и многих баз данных, как реляционных (в том числе других БД на платформе Informix), так и нереляционных, в единую систему поддержки принятия решений. Чтобы поддерживать регулярные обновления и проверки качества данных, необходимо знать источник для каждой колонки в хранилище данных. Для документирования информации об источниках данных используется редактор Data Warehouse Source Editor.

Итог

Как мы видим, ERwin является действительно простым, а также надежным и гибким средством проектирования хранилищ данных для банковской деятельности.


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=2323