Перспективы data miningИсточник: realcoding
Перспективы data miningКакие преимущества дают компаниям технологии поиска закономерностей - data mining? Я прочитал книги SQL Server Books Online (BOL), познакомился с несколькими демонстрационными продуктами и изучил некоторые Web-узлы, посвященные анализу информации, но мне никогда не приходилось строить законченное решение от начала до конца. Возможно, многие читатели разделяют мой энтузиазм в отношении поиска закономерностей, но не вполне твердо знают, что это такое и как пользоваться данной технологией. Я представляю себе поиск закономерностей в данных как один из двух типов анализа, составляющих технологию сбора информации в сфере бизнеса (business intelligence - BI). В настоящее время самый распространенный тип BI - оперативная аналитическая обработка (online analytical processing - OLAP), технология презентации и группировки данных, которая позволяет визуализировать данные и взаимодействовать с ними с помощью методов, невозможных в рамках традиционной среды подготовки отчетов SQL. Благодаря эффективному инструменту OLAP, соединенному с кубом OLAP, можно просматривать данные, вести гибкий поиск, задавать вопросы о назначении данных. Однако инструмент OLAP не может автоматически обнаружить ценные, но скрытые крупицы данных. Пользователь должен знать, что он ищет. На мой взгляд, самое важное свойство технологии поиска закономерностей в данных - возможность обнаруживать неизвестную информацию и закономерности и принимать более взвешенные деловые решения. В процессе поиска закономерностей в данных пользователь задает алгоритмы поиска, которые позволяют обнаружить интересные и важные взаимозависимости между данными. Инструменты OLAP помогут проанализировать найденные взаимозависимости. К сожалению, современные технологии поиска закономерностей в данных, как правило, сложны в применении и слишком дороги для большинства компаний. Пользователи большинства средств поиска закономерностей в данных должны уверенно владеть сложными статистическими методами, чтобы без труда разобраться в результатах. Однако специалисты Microsoft избрали иной подход к поиску закономерностей в данных, упростив процесс и сделав его доступным массовому пользователю. Выпустив SQL Server 7.0 OLAP Services, компания Microsoft стала первым крупным поставщиком баз данных, включивших в свою систему технологию OLAP без дополнительной платы. Во многом именно такой подход к реализации функций анализа данных привел к росту популярности OLAP в последние годы. Не все пользователи работали с инструментами OLAP от Microsoft, но бесплатная функциональность OLAP в SQL Server побудила других поставщиков выпустить более удобные и недорогие решения OLAP. SQL Server 2000 дополнен несколькими встроенными технологиями поиска закономерностей в данных. В настоящее время эти технологии используются немногими компаниями, но появление инструментов поиска закономерностей в данных в SQL Server 2000 Analysis Services было ключевым событием - впервые ведущий поставщик предпринял серьезную попытку сделать поиск закономерностей в данных доступным для большинства пользователей. Технология поиска закономерностей в данных SQL Server по-прежнему нуждается в совершенствовании: она должна быть более функциональной и простой в применении. Я не могу рассказать подробно о новых функциях версии Yukon, но достаточно сказать, что группа SQL Server работает над рядом практичных и важных улучшений. А я занимаюсь проектом, который дает возможность окунуться в реальные проблемы поиска закономерностей в данных, чтобы затем поделиться опытом с читателями. Пока же я рекомендую собирать любую информацию о методах поиска закономерностей в данных. Эта технология не приведет к внезапной перестройке вашего бизнеса, но со временем окажет глубокое влияние на способы взаимодействия с информацией. Хорошей отправной точкой для знакомства будет 149-страничное руководство "Preparing and Mining Data with Microsoft SQL Server 2000 and Analysis Services". Вместе с руководством можно загрузить 35-мегабайтный исходный текст примера, который полезно проанализировать. Благодаря встроенным функциям поиска закономерностей в данных SQL Server, специалисты по базам данных смогут значительно расширить спектр услуг для своего предприятия и его клиентов. А стать одним из первых знатоков, которые умеют применить методы поиска закономерностей в данных к широкому кругу практических задач - значит дать очевидный импульс собственной карьере. Брайан Моран - Президент группы пользователей и директор по технологиям СУБД Spectrum Technology Group. Имеет сертификаты MCSE, MCSD и MCT. Ему можно написать по адресу: brian@spectrumtech.com. |