Сходство и различия двух подходов к архитектуре Хранилищ данных

по материалам зарубежных сайтов

Эта статья продолжает рассмотрение двух принципиальных подходов к архитектуре Хранилищ данных, начатое в предыдущем материале рубрики. На этот раз мы более подробно остановимся на сходстве и различиях двух архитектур.

Общее

Прежде всего, и тот и другой подход направлены на создание одного объекта - корпоративного Хранилища данных. Соответственно, единство конечного объекта означает общность требований, которым должен удовлетворять любой подход для достижения искомого конечного результата, а это, в свою очередь, указывает на то, что и в самой архитектуре должны быть общие черты.

Первое основное требование связано с тем, что для принятия и осуществления важных решений, варьирующих от проблем выживания бизнеса до увеличения прибыли, все корпорации нуждаются в программном средстве для хранения, анализа и интерпретации данных, которые они накапливают. Для достижения своих целей корпорации должны в полной мере использовать возможности первичных данных, что, в свою очередь, требует соответствующих операционных систем и систем обратной связи.

Именно для этого создаются Хранилища данных, и оба архитектурных подхода в полной мере отвечают названным требованиям.

Второе требование - это требование точности и своевременности данных. Каждый пользователь должен иметь возможность доступа к любым данным в соответствии со своими конкретными требованиями, и этот доступ должен осуществляться с помощью легко понятных и простых способов построения запросов.

Как Хранилище данных с архитектурой шины (BUS), так и корпоративная информационная фабрика (CIF) вполне удовлетворяют и второй группе требований.

В техническом отношении оба архитектора Хранилищ данных признают необходимость наличия в Хранилище как атомарных, так и суммарных данных, а также то, что данные обеих категорий должны быть доступны пользователям для анализа.

Различия

Первое существенное отличие между этими архитектурами - различные подходы к построению баз данных, составляющих основу Хранилища. Если Ральф Кимболл (Ralph Kimball) использует пространственную организацию баз данных (dimensional data bases) c так называемой архитектурой "звезда" как на стадии подготовки, так и презентации данных, то Билл Инмон (Bill Inmon) комбинирует два подхода. В его модели атомарные данные организованы в реляционные базы и находятся в нормализованном Хранилище данных, причем суммарные данные доступны для использования через специализированные Хранилища, средства data mining и OLAP; что же касается зависимых витрин данных, то только они организованы с помощью пространственных моделей, как и у Ральфа Кимболла.

Таким образом, по сути дела архитектуры отличаются только способами обращения с атомарными данными: их пространственной организацией у Кимболла и нормализованной - у Инмона.

Второе принципиальное отличие этих двух подходов, отчасти вытекающее из первого, - вопрос физической организации Хранилища. Если у Инмона Хранилище данных - это физически целостный реально существующий объект, то Хранилище Кимболла - скорее "виртуальный" объект. Это коллекция витрин данных, которые могут быть пространственно разобщенными.

Этими двумя основными отличиями в целом и исчерпывается принципиальная разница между той и другой моделью.

Преимущества и недостатки

Закономерно возникает вопрос: так чья же модель лучше? Очевидно, что он не имеет однозначного ответа. В целом оба этих подхода сходятся в главном - в необходимости современных средств управления информационными потоками для принятия своевременных и обоснованных решений при ведении бизнеса и, соответственно, в необходимости создания соответствующих структур для хранения данных, их координации и интеграции. Выбор того или иного технического решения определяется нуждами бизнеса и его конкретными особенностями.

Преимущества и недостатки каждого из подходов напрямую вытекают из их архитектурных решений. Считается, что пространственная организация с архитектурой "звезда" облегчает доступ к данным и требует меньше времени на выполнение запросов, а также упрощает работу с атомарными данными. С другой стороны, сторонники подхода Билла Инмона критикуют эту схему за отсутствие необходимой гибкости и уязвимость структуры, полагая, что в пространственно организованные атомарные данные труднее вносить необходимые изменения.

Реляционная схема организации атомарных данных замедляет доступ к данным и требует больше времени для выполнения запросов в силу разной организации атомарных и суммарных данных. Но, с другой стороны, эта схема предоставляет широкие возможности для манипулирования атомарными данными и изменения их формата и способа представления по мере необходимости.

Подводя итог, можно сказать, что, несмотря на кажущиеся глубокие различия между двумя подходами к архитектуре Хранилищ данных, это различия в основном технического плана, а в целом Хранилища обоих типов оказываются достаточно похожими по своим функциям и задачам, которые можно решать с их помощью.

Гибридный подход

Некоторые организации используют так называемый гибридный подход, стараясь совместить то лучшее, что есть в обоих методах. Как видно из рис. 1, гибридное Хранилище данных совмещает рассмотренные в предыдущей статье модели (см. рис. 1 и 2 в статье "Основные подходы к архитектуре Хранилищ данных"). Оно включает нормализованное Хранилище CIF и пространственное Хранилище атомарных и суммарных данных на основе архитектуры шины Кимболла.

Рис. 1. Гибрид нормализованного и пространственного Хранилищ данных.

Стоит подчеркнуть, что если окончательное представление данных приемлемо для использования, то такой подход можно считать жизнеспособным. Но двойная работа по подготовке и хранению атомарных данных сопровождается существенными дополнительными расходами и задержками. Поэтому, вероятно, стоит потратить инвестиции в ресурсы и технологии на то, чтобы соответствующим образом представить дополнительные ключевые показатели производительности для бизнеса.

Безусловно, если в организации сначала было создано нормализованное Хранилище данных, а потом возникла необходимость в развитии возможностей представления данных, чтобы продемонстрировать их ценность, то гибридный подход поможет выгодно использовать уже сделанные инвестиции.

Публикации

  1. Марджи Росс (Margy Ross) и Ральф Кимболл (Ralph Kimball). "Различные мнения" (Differences of Opinion).
  2. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: подход Ральфа Кимболла" (Data Warehouse: Ralph Kimball's Vision).
  3. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: подход Билла Инмона" (Data Warehouse: Bill Inmon's Vision).
  4. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: сходство и различия подходов Билла Инмона и Ральфа Кимболла" (Data Warehousing: Similarities and Differences of Inmon and Kimball).
  5. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: реляционные и многомерные данные" (Data Warehousing: Relational vs. Multi-Dimensional Data).
  6. Кэтэрин Дрюэк (Katherine Drewek). "Хранилища данных: завершение дебатов" (Data Warehousing: Our Great Debate Wraps Up).

Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=536