Эффективные технологии построения корпоративных Хранилищ ДанныхИсточник: olap olap
Статистика успехаПочему компании принимают решения о покупке технологий? Или, что не менее важно, почему компании воздерживаются от принятия таких решений? На известных технологических выставках вниманию посетителей предлагается невероятное количество технологий. Тем не менее, определяющим фактором является не выставочная активность и не рекламный блеск, которым окружена технология, а результаты, сказывающиеся на эффективности бизнеса, повышении прибыли и экономии денег. Sybase активно работает на рынке хранилищ данных уже более 10 лет: сначала с Sybase SQL Server, а теперь - с Sybase Adaptive Server IQ, поставляя высокоэффективные решения в таких областях, как анализ продаж и рынка, финансовое планирование и управление отношениями с клиентами. Сегодня уникальная СУБД для хранилищ данных Sybase Adaptive Server IQ обеспечивает молниеносный доступ к огромным количествам информации, позволяет получить важнейшую информацию, которая ранее была скрыта и недоступна. За три недолгих года, прошедшие с момента появления этой базы данных на рынке, успела сложиться весьма впечатляющая статистика по количеству клиентов и доле на рынке. А вышедший в прошлом году продукт Sybase Warehouse Studio еще больше расширил возможности построения законченных решений из области хранилищ данных на базе нашей специализированной СУБД. Внизу приведена сводная таблица с информацией о проценте увеличения объема данных (так называемый "взрыв" данных), происходящего при использовании традиционных технологий реляционных баз данных для хранения информации, необходимой для создания хранилища данных. Эта информация была получена нашими конкурентами в результате проведенных ими тестов. Как видно из приведенной ниже таблицы, Sybase Adaptive Server IQ имеет показатель сжатия данных равный 70%, в то время как конкурирующие технологии характеризуются взрывным увеличением объема данных до 300 - 1200% от исходного размера. Сегодня более 500 клиентов Sybase используют Sybase Adaptive Server IQ, который обеспечивает высокоэффективные бизнес-решения всего за часть стоимости конкурирующих технологий.
Хранилища данных и ОББД (Очень Большие Базы Данных) - почему Sybase?Сегодня организации добиваются повышения своей конкурентоспособности путем быстрого принятия разумных решений, основанных на полной информации. Для того, чтобы правильно реагировать на все изменения рынка, угрозу конкуренции, во время определять и эффективно использовать новые возможности, организациям приходится анализировать огромные количества информации, зачастую поступающие не из одного, а из нескольких географических регионов, бизнес-подразделений и подразделений, сфокусированных на конкретных продуктах. Хотя в существующих технологиях учитывается необходимость повышения эффективности и производительности запросов, системы хранения данных должны пройти длинный путь в своем развитии для того, чтобы обеспечивать тот уровень гибкости и согласованности, которые необходимы в сегодняшней бизнес-среде, где так много зависит от обладания нужной информацией. Технология должна обеспечивать следующее:
Традиционные методологии не решают всех задач, связанных с построением хранилищ данныхОсознавая необходимость обеспечить высокую скорость ответов на аналитические запросы пользователей, компании, разрабатывающие программное обеспечение, включают в свои технологии разнообразные приемы индексирования и дизайна баз данных. В то время как каждый прием имеет свои сильные стороны и оптимизирует выполнение отдельных типов операций, ни один из этих отдельно взятых приемов не удовлетворяет всем требованиям хранилища данных.
Индексирование, основанное на алгоритме сбалансированного двоичного дерева (B-Tree-индексирование) - подходит для OLTP-систем, но не для хранилищ данныхТрадиционные реляционные системы управления базами данных (РСУБД) позволили улучшить производительность механизмов поиска за счет использования B-tree-индексов. Индекс предлагает механизм обнаружения записей данных путем отслеживания значений выбранных полей в записи или строке данных и указания непосредственно на те страницы, которые содержат нужное поле. Ненужная информация автоматически отсеивается. Таким образом, для того чтобы найти определенные записи о клиенте, система просто считывает клиентский индекс, а затем переходит непосредственно на ту страницу, где содержится нужная информация. В рамках онлайновой обработки транзакций (OLTP) B-tree-индексы позволяют быстро осуществлять добавление, изменение и доступ к отдельным записям, так как эти индексы прекрасно подходят для поиска единичных записей. Примерами доступа такого типа к данным высокой кардинальности являются добавление, изменение или доступ к отдельным записям, таким как заказы или данные о клиентах. К сожалению, B-tree-индексы обладают тремя характеристиками, которые делают их неподходящим выбором для приложений, базирующихся на сложных итеративных запросах, таких как получение, суммирование, группирование или сегментация тысяч (или миллионов) записей о транзакциях, необходимых для непредсказуемого (ad-hoc) бизнес-анализа на базе хранилища данных:
В целом, B-tree-индексы могут найти лишь весьма ограниченное применение в настоящих "ad-hoc"-приложениях на базе хранилищ данных. Использование B-tree-индексов в таких системах приводит к плохой производительности или необходимости очень ресурсоемких настроек, таких как построение дополнительных индексов для каждого незапланированного ("ad-hoc") запроса. Это и является основной причиной "взрыва" данных.
Bitmap-индексирование - ограниченные возможностиРяд нереляционных баз данных использует списки-инверсии (или bitmap-индексы) для повышения производительности приложений поддержки принятия решений. Вместо использования B-tree, bitmap-индексы создают массивы для каждого индивидуального значения поля и для каждой записи в каждом массиве указывают, верно ("1") или неверно ("0") это значение. Bitmap-индексам не свойственны некоторые ограничения, характерные для B-tree-индексов. В отличие от B-tree-индексов Bitmap-индексы эффективно представляют данные низкой кардинальности, занимают меньше места, ими легче управлять и можно обрабатывать одновременно. Традиционным bitmap-индексам свойственны 2 ограничения:
Инновационная технология Bit-Wiseд-индексирования для рентабельных высокопроизводительных хранилищ данныхЭксклюзивная запатентованная технология Bit-Wise-индексирования, используемая в Sybase Adaptive Server IQ, позволяет нам поставлять рентабельные, быстрые, гибкие и масштабируемые приложения на основе хранилищ данных.
Рентабельность: максимально эффективно используйте ваше компьютерное оборудование и ресурсыПри использовании Sybase Adaptive Server IQ размер всех структур данных (данных и индексов) составляет всего 20% от размера, обычного для традиционных РСУБД, что позволяет значительно сократить расходы на дисковое пространство. Различные методы сокращения объема данных и методы упаковки позволяют построить всю базу данных вместе с индексами для незапланированных запросов на меньшем пространстве, чем обычно требуется для хранения только "сырых" данных, сокращая расходы на необходимое компьютерное оборудование, позволяя хранить больше информации для анализа, снижая, в то же время, стоимость хранения. Эта СУБД эффективно обрабатывает запросы, манипулируя только теми данными, которые имеют непосредственное отношение к запросу, и позволяет полностью избежать потерь времени на сканирование таблиц.
Обработка запросов без настройки, сокращение затрат на администрированиеОдно из самых главных преимуществ, которое обеспечивает системам поддержки принятия решений Sybase Adaptive Server IQ - это возможность обрабатывать незапланированные расходы также легко как запланированные при минимальной ручной настройке. Обработка только значимой для конкретного запроса информации позволяет эффективно обрабатывать запросы. Администраторам не нужно заранее определять все специфические запросы или операции для того, чтобы добиться хорошей производительности, в отличие от случаев использования традиционных РСУБД и B-tree-индексов. Sybase Adaptive Server IQ позволяет экономить средства путем снижения затрат на администрирование и в то же время позволяет эффективно использовать дисковое пространство за счет отказа от ненужных индексов.
Защита инвестиций в существующее компьютерное и программное обеспечениеSybase Adaptive Server IQ не требует кластерных или MPP-конфигураций компьютерного оборудования для высокой производительности или хранения больших объемов информации. Sybase Adaptive Server IQ может расширить возможности практически любой информационной среды, позволяя вашей организации увеличить производительность существующего компьютерного оборудования и программного обеспечения, сокращая расходы и в то же время расширяя возможности бизнес-анализа для бизнес-пользователей вашей организации. Ваша организация может эффективно использовать Sybase Adaptive Server IQ для создания новых приложений для поддержки принятия решений при минимальных инвестициях в новое компьютерное и программное обеспечение и людские ресурсы для администрирования базы данных. Sybase Adaptive Server IQ полностью совместима с мощными популярными инструментами обработки незапланированных запросов, которые используются сегодня для поддержки принятия решений.
Исключение "взрыва" данныхКак уже говорилось раньше, использование традиционных реляционных баз данных в рамках хранилища данных приводит к "взрыву" данных. Это приводит к тому, что стоимость больших хранилищ становится непреодолимым препятствием для осуществления проекта. Sybase Adaptive Server IQ исключает "взрыв" данных по двум причинам. Во-первых, наша технология сжимает данные на этапе их загрузки в Adaptive Server IQ. Например, использование Sybase Adaptive Server IQ позволило IRS (Налоговая Служба США) хранить 598 Гб "сырых" данных в 379 Гб хранилища данных - процент сжатия при этом составил 63%. Во-вторых, скорость и гибкость Sybase Adaptive Server IQ при работе с незапланированными запросами позволяет обходиться практически без пре-агрегации, которая является настоящим бедствием при использовании для создания хранилищ данных традиционных РСУБД. Согласно результатам тестов TPCD, технологии наших конкурентов требуют для построения хранилища данных пространства, в 3 - 11 раз превышающего объем "сырых" данных.
Скорость: Sybase Adaptive Server IQ обеспечивает высокопроизводительный бизнес-анализSybase Adaptive Server IQ не только исключает "взрыв" данных, но и дает возможность бизнес-пользователям получать ответы на сложные аналитические запросы в 10 - 100 раз быстрее, чем при использовании традиционных РСУБД. В случае использования обычной РСУБД, даже при наличии самых оптимальных условий, обработка аналитического запроса может занять часы, в то время как Sybase Adaptive Server IQ позволяет получить ответ на тот же запрос через секунды или минуты. Такой уровень производительности достигается в Adaptive Server IQ за счет ввода/вывода дисковых блоков по 64 Кб в сочетании с избирательным доступом к колонкам и упаковкой, что в результате может обеспечить сокращение количество ввода/вывода на 98%. Сокращение ввода/вывода устраняет главное узкое место, характерное для большинства систем поддержки принятия решений при аналитической обработке запросов, и обеспечивает быстрое получение результатов. Sybase Adaptive Server IQ оптимизирует операции по манипулированию данными, такие как суммирование, группирование и сегментирование, путем использования преимуществ быстрых процессоров, по возможности - больших кэшей памяти, а также самых современных мультипроцессорных архитектур.
Гибкость: Sybase Adaptive Server IQ позволяет пользователям задавать вопросы в той форме, которая им удобнаSybase Adaptive Server IQ не нуждается в специальных моделях данных, индексах или методах агрегации, необходимых для преодоления ограничений традиционных для B-tree-индексов. В Sybase Adaptive Server IQ индексирование ведется по полям/колонкам, а не по записям/рядам, так что специфические свойства колонок и характерные операции над ними (такие, как хранение текстов, арифметические операции/агрегация, группирование/сегментирование, низкая кардинальность и пр.) задаются сразу при создании базы данных, и пользователи хранилища смогут задавать неограниченное число сложных незапланированных запросов, не требующих специальной настройки администратором баз данных. Если запросы бизнес-пользователя к хранилищу, основанному на традиционной базе данных с порядовыми B-tree-индексами не укладываются в порядовую модель данных, индекс или преаггрегацию, необходимо будет провести существенную работу по настройке запроса и дизайну системы, чтобы ответить на эти запросы. Sybase Adaptive Server IQ поддерживает любые модели данных с помощью стандартных средств генерации запросов с открытой архитектурой. Это позволяет строить приложения основываясь только на нуждах бизнес-пользователя, вместо того, чтобы подстраиваться под ограничения, накладываемые технологиями баз данных.
Масштабируемость: обеспечение доступа большого количества пользователей к большим объемам данныхПо мере роста числа пользователей хранилищ задача обеспечения бесперебойной и высокоэффективной обработки многочисленных одновременных запросов становится все более важной. Sybase Adaptive Server IQ может выполнять ресурсоемкие операции, такие, например, как загрузка данных, на многих процессорах в среде SMP. Что еще более важно, эта архитектура позволяет обрабатывать запросы параллельно на многих процессорах, и выполнять многочисленные запросы одновременно практически без снижения производительности системы. В то же время эффективность работы традиционных баз данных резко падает при возрастании количества пользователей и объемов данных.
Warehouse Studio обеспечивает полноту решенияSybase поставляет интегрированную платформу для проектирования, запуска в эксплуатацию и администрирования хранилищ данных - Sybase Warehouse Studio. Этот комплект инструментов для работы с хранилищем обеспечивает лидирующую по индустрии производительность, интеграцию данных и утилизацию компьютерных ресурсов, что позволяет строить решения в таких областях, как анализ рынка, анализ взаимоотношений с клиентами, финансовое планирование. Sybase Warehouse Studio предоставляет все необходимые инструменты для дизайна хранилищ и витрин данных, для интеграции и трансформации данных из различных источников, для визуализации и анализа этих данных, и для единого взгляда на модель данных с помощью интегрированного браузера мета-данных. Warehouse Studio использует преимущества лучших в индустрии средств промежуточного слоя Sybase, чтобы интегрировать и использовать существующие данные, и чтобы распространять данные внутри предприятия и за его пределами. Технологии хранилищ данных Sybase, вместе с программными приложениями наших партнеров, позволяют строить решения, эффективно обеспечивающие любые нужды в хранилищах данных, от витрины, сфокусированной на одном проекте, до информационной структуры всего предприятия. |