Новые возможности служб управления данными в SQL Server 2012Источник: biexpert vmatskevich
В мире постоянно растет объем данных, и качество этих данных становится решающим. Для того чтобы очистить данные и получить высокое качество, необходимо иметь базу знаний об этих данных. Проект Data Quality Services призван помочь в решении этой задачи. Data Quality Services (DQS), поставляемый в составе SQL Server 2012 "Denali" CTP3, является инновационным продуктом управления качеством данных. DQS позволяет создавать базу знаний и использовать её для выполнения различных критически важных задач по управлению качеством данных: корректировка, стандартизация и исключение дубликатов. DQS помогает найти и устранить ошибки и несоответствия в загружаемых из источников данных. Задача по управлению качеством данных состоит из 2-х этапов: • создание базы знаний (Knowledge Base); Для формирования базы знаний можно использовать данные организации и справочники, доступные в виде базы данных SQL Server или Excel файлов, также есть возможность подключаться к облачным сервисам. В модели знаний создаются домены, представляющие собой те атрибуты, которые должны пройти анализ на корректность (это могут быть Email адреса, сокращения, коды), также создаются правила, выполняющие необходимые проверки доменных значений.
На втором этапе, на основании базы знаний, создаются проекты DQS по очистке входных данных. Примером такого проекта может служить проверка данных с нового перечня товаров на соответствие определенным стандартам. При создании проекта DQS указываются модель знаний и входной источник, которым может быть база данных SQL Server или Excel файл. Загруженные данные проходят автоматическую и ручную обработку, проверяются на соответствие тем правилам и справочникам, определенным на первом этапе, а результат может быть экспортирован в базу данных SQL Server или CSV-файл.
Для автоматической обработки записей, созданные проекты DQS можно включать в пакеты Integration Services (SSIS). DQS также предоставляет возможность интеграции с надстройкой Excel (MDS) Master Data Services. Master Data ServicesПродукт Master Data Services достиг больших успехов в устранении барьеров на пути к реализации технологий Master Data Management (управление основными данными) в рамках бизнеса любого масштаба. Новая функция, надстройка MDS для Excel, должна сделать MDS доступным для всего предприятия. Сотрудники компании могут работать с общими наборами данных, которые защищены и хранятся централизованно. Новый пользовательский интерфейс SilverLight обеспечивает лучшую производительность и надежность. Опытный пользователь может применять надстройку для Excel в создании новых объектов модели данных и загрузке данных, что ускоряет процесс развертывания. Использование MS Excel для управления основными даннымиНадстройка позволяет загружать отфильтрованный набор данных из базы данных MDS, работать с ним в MS Excel, а затем обратно загружать данные в базу. Надстройка может быть использована для создания новых объектов и атрибутов. Проверка данных перед загрузкой Прежде чем добавить данные в MDS, можно убедиться, что не добавляете повторяющиеся данные. Надстройка MDS для Excel использует SQL Server Data Quality Services для сравнения двух источников данных: данные из MDS и данные из другой системы или электронной таблицы. Загрузка данных в MDS стала легче Сейчас есть возможность загрузить все элементы и значения атрибутов в сущность одновременно. Для этого ранее необходимо было использовать отдельные пакеты. Для импорта информации для каждой сущности создается отдельная таблица, что значительно упрощает интеграцию (например, с помощью SSIS). Установка как компонента SQL Server Сейчас установить MDS можно во время инсталляции SQL Server, а не использовать отдельный пакет установки, как было ранее. Улучшение производительности В новой версии MDS добавление новых элементов в сущность происходит быстрее, а управлении элементами в иерархии - проще. В результате нововведений архитектуру MDS в SQL Server 2012 можно описать в виде схемы: |