Использование компонентов Data Mining в продуктах Office 2007. Часть 1

Источник: spellabs
Максим Гончаров

Дополнительные компоненты MS Office 2007 для интеллектуального анализа данных на платформе SQL Server 2005 Analysis Services предназначены для выявления скрытых шаблонов и взаимосвязей в данных для улучшения качества и глубины их анализа. Для использования этих компонент вы должны иметь возможность подключаться к базе данных SQL Server 2005 Analysis Services. Однако, опыт работы с компонентами SQL Server 2005 Analysis Services не обязателен.

Дополнительные компоненты MS Office 2007 для интеллектуального анализа данных доступны для бесплатной загрузки и состоят из следующих компонент:

  • Средства анализа табличных данных для Excel - позволяет использовать Analysis Services для анализа и выявления закономерностей в данных из электронных таблиц Microsoft Excel.
  • Клиентские компоненты Data Mining для Excel - Предоставляют возможность создания, настройки и сопровождения проекта Data Mining включая подготовку данных, построение, оценку и управление моделями Data Mining, получение результатов прогнозирования с использованием как табличных данных Excel в качестве источника, так и внешних источников, доступных базе данных Analysis Services.
  • Шаблоны Data Mining для Visio - Предоставляют возможность графического представления, форматирования, описания и распространения результатов моделирования Data Mining в виде диаграмм.

Далее в этой статье мы предоставим обзорную информацию по системным требованиям, процессу установки и функциональности дополнительных компонент.

Подготовка к работе

Перед началом работы вы должны убедиться в установке следующих компонент:

  1. Microsoft .NET Framework 2.0 - Компоненты Data Mining для Office построены на платформе .NET Framework 2.0 и требуют поддержки программирования под Office 2007 для .NET.
  2. Microsoft Office 2007 - Необходимо установить Excel 2007 для работы со средствами анализа табличных данных и клиентских компонент для Data Mining. Следует установить Visio Professional 2007 для работы с шаблонами Data Mining для Visio. Установка должна включать опцию программирования под .NET (.NET Programmability Support).
  3. Дополнительные компоненты MS Office 2007 для интеллектуального анализа данных - Установка осуществляется загрузкой и запуском дистрибутива. На странице загрузки содержатся ссылки на страницы загрузки обязательных компонент, требуемых для работы системы.
  4. Средства соединения с SQL Server 2005 Analysis Services - Работа с моделями Data Mining посредством приложения MS Office требует связи с сервером SQL Server 2005 Analysis Services. Он может находиться как на локальной машине, так и на удаленном сервере, к которому у вас должен быть доступ. В любом случае, сервер Analysis Services должен быть правильно сконфигурирован для поддержки компонент Data Mining для Office. Установка компонент содержит мастер Getting Started, предназначенный для установки соединения и конфигурирования сервера Analysis Services.

После установки и конфигурирования всех необходимых приложений мы можем далее исследовать функциональность компонент Data Mining для Office.

Средства анализа табличных данных для Excel

Этот компонент предоставляет возможность проведения углубленного анализа табличных данных из MS Excel. Несмотря на тот факт, что для выполнения анализа используется вся мощь алгоритмов Data Mining, реализованных в Analysis Services 2005, конечному пользователю Excel не нужно знать всех тонкостей работы с Analysis Services и соответствующих алгоритмов.

Так как эта компонента является средством табличного анализа, вам необходимо знать, как создать или конвертировать существующую таблицу в таблицу Excel. Для получения более подробной информации загрузите видео-пример, освещающий работу со средствами анализа табличных данных.

Если после установки средства анализа табличных данных вы щелкните мышкой в любом месте внутри таблицы Excel, вы увидите следующую панель инструментов под пунктом меню "Табличные Данные" - Table Tools:

Рисунок 1 Средства анализа табличных данных для Excel 2007.

Каждый инструмент на этой панели вызывает простой интерфейс для выполнения одной из аналитических задач и формирования понятного отчета, позволяющего получить более глубокое понимание имеющихся данных:

Рисунок 2 Пример интерфейса для выполнения одной из аналитических задач.

Давайте посмотрим на каждый инструмент на панели управления средствами для анализа табличных данных.

Анализ ключевых факторов

Этот инструмент производит анализ входных факторов в данных, которые имеют наибольшее влияние на определенный выходной атрибут. Например, если у вас есть список всех клиентов, анализ ключевых факторов может проанализировать факторы, являющиеся ключевыми для определения того какой из клиентов потратит наибольшую сумму денег на ваши товары или услуги.

Задача определения, какие поля в таблице являются решающими, не является очевидной. Например, поле, представляющее годовой доход клиента может быть не самым значимым фактором, выделяющим клиентов, заключающими с вами самые большие сделки. Важными могут быть совсем другие факторы, такие как число детей, географическое положение или комбинация этих факторов.

Ниже приведен пример результата анализа, выполненного этим инструментом:

Рисунок 3 Пример результата анализа.
Выделение категорий

Инструмент Detect Categories (выделение категорий) определяет строки в табличных данных, имеющие похожие значения характеристик, и объединяет их в одинаковые категории.

Каждая выделенная категория описывается набором характеристик входящих в нее строк. Эти характеристики отличаются для различных категорий. Основываясь на этих характеристиках, вы можете дать категориям более понятное наименование. Например, категория, содержащая клиентов в возрасте 45-60 лет с доходам более 100000, может быть переименована в "успешных представителей послевоенного поколения". Разбиение данных в категории позволяет быстро идентифицировать естественные группировки в ваших данных, что может быть использовано, например, для формирования адресной маркетинговой кампании.

Этот инструмент также позволяет помечать каждую строку в исходной таблице названием содержащей ее категории.

Рисунок 4 Инструмент Detect Categories (выделение категорий).
 

Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=20620