Курс по интеллектуальному анализу данных (Data Mining) с использованием платформы MS SQL 2005 . Чаcть 3Источник: businessdataanalytics
Тестирование точности Data Mining-моделейТеперь модели обработаны и исследованы. Но насколько хорошо они предсказывают ситуацию? Работает ли какая-нибудь из моделей лучше, чем другие? Используя страницу Mining Accuracy Chart, вы можете вычислить, как хорошо каждая из моделей предсказывает результат и сравнить их между собой. Этот метод сравнения также иногда называется диаграммой роста (lift chart). На странице The Mining Accuracy Chart использует данные, отделённые от первоисточника, что позволяет сравнивать прогнозы с известными результатами. Затем результаты сортируются и отображаются на графике вместе с идеальной моделью, показывая, насколько хорошо каждая модель делает прогноз. График идеальной модели соответствует теоретической модели, предсказывающей результат со 100% точностью. Диаграмма роста является важным инструментом, поскольку она помогает различать модели практически идентичные по структуре, показывая, какая делает лучший прогноз. Подобным образом, из её рассмотрения можно сделать вывод о том, какие типы алгоритмов делают лучшие предсказания в данной ситуации. Для более подробной информации по использованию Mining Accuracy Chart, обратитесь к разделу "Comparing Data Mining Models with the Lift Chart" в SQL Server Books Online. Страница Mining Accuracy Chart показана на рисунке 16.
Рисунок 16 Страница Mining Accuracy Chart.
Для того чтобы создать новую диаграмму выполните следующие шаги:
Примечание: Для использования mining accuracy chart модели должны быть обработаны.
Отображение входных столбцовНа первом шаге необходимо связать столбцы, используемые в модели со столбцами во входных данных. В том случае, если имена столбцов совпадают, связи создадутся автоматически. Чтобы соотнести входные столбцы со структурой модели:
Рисунок 17 Связанные столбцы.
Запрос на прогноз генерируется для каждой модели Mining Structure на основании связанных столбцов. Вы можете удалить связь, выбрав линию, связывающую поля в Mining Structure и Select Input Table(s) и нажав DELETE. Также вы можете создать связь вручную, выбрав столбец в Select Input Table(s) и перетащив его на соответствующий столбец в Mining Structure. Фильтрация входных столбцовДля установки фильтров на входные данные вы можете использовать таблицу Filter the input data used to generate the lift chart. Вы можете перетащить столбцы из Select Input Table(s) на таблицу с результатами или выбрать значения в выпадающих списках. Например, если необходимо учитывать только те строки в столбце Income, где его значение больше х, выберите Income в поле Field, а в поле Criteria/Argument введите >x. Для выполнения данного упражнения вам не потребуется фильтровать данные. Выбор моделей, прогнозируемых полей и их значенийСледующий шаг заключается в выборе моделей, которые вы хотите включить в рассмотрение, и прогнозируемого поля, по которому они будут сравниваться. По умолчанию, выбраны все модели. Вы можете создавать два типа диаграмм. Если указано значение прогнозируемого атрибута, вы увидите график вроде того, что показан на рисунке 18, из которого видно какая из моделей показывает лучший результат (lift chart). В том случае, если значение не указано, то диаграмма отобразит точность модели (см. рисунок 19). Чтобы показать диаграмму lift chart:
Чтобы показать диаграмму точности моделей:
Если установлен флаг Synchronize Prediction Columns and Values, прогнозируемый столбец синхронизируется для каждой модели в структуре Data Mining. Примечание: Список столбцов модели Predictable Column Name, ограничен полями с типом Predict и Predict Only, содержащими дискретные или дискретизированные данные.
В некоторых более сложных случаях, вам может понадобиться создать диаграмму роста для двух моделей анализа, но в которых значения прогнозируемого атрибута берутся из разных столбцов структуры Data Mining. Если выключить флаг Synchronize Prediction Columns and Values, можно выбрать любой доступный прогнозируемый столбец и значение. Результаты отображаются вместе, вне зависимости от того как они получены. Диаграмма ростаКликните на закладку Lift Chart чтобы просмотреть диаграмму роста. При выполнении этого действия на сервере выполняется запрос на прогнозирование. Полученные результаты прогноза сравниваются с известными значениями и сортируются по вероятности, после чего отображаются на графике. Для более подробной информации по использованию диаграммы, обратитесь к разделу "Lift Chart" в SQL Server Books Online. При условии указанного значения прогнозируемого столбца, диаграмма роста имеет вид показанный на рисунке 18.
Рисунок 18 Рост для каждой модели в сравнении с идеальной моделью.
Если значение прогнозируемого атрибута не было указано, диаграмма роста показывает точность предсказаний моделей (см. рисунок 19).
Рисунок 19 Точность каждой модели в сравнении с идеальной моделью.
|