© Статья была опубликована на сайте Intersoft
Lab
© Перевод: Intersoft Lab.
Data Mining (Интеллектуальный анализ данных[1]) — это технология выявления скрытых взаимосвязей внутри больших баз данных. Многие компании годами накапливают важную бизнес-информацию, надеясь, что она поможет им в принятии решений. И, казалось бы, извлечь факты из базы данных — допустим, выяснить, что в какой-то конкретный день и время клиент заказал товар X в магазине 123 — не так уж сложно. Однако здесь нужны не факты сами по себе, а знания — знания о том, что, например, магазины 123 и 130 продают товара X на 30% больше, чем другие точки. В общем, чем специфичнее информация, тем полезнее она для принятия решений. Таким образом, Data Mining (DM) и есть процесс обнаружения подобного рода полезных знаний о бизнесе.
Data Mining может помочь предприятию точнее оценить свою работу. Рассмотрим один из методов — анализ потребительской корзины. Его применяют, чтобы выявить предпочтения потребителей и, соответственно, лучше удовлетворить спрос и повысить доход с клиентов. Однако характер покупательского поведения присутствует в данных неявно, и для его определения необходимо использовать именно Data Mining. И теперь можно выяснить, к примеру, что клиент, собирающийся купить товар X, будет не прочь приобрести заодно и товар Y. Эта информация ляжет в основу последующих решений: может быть, стоит располагать эти товары на витрине магазина рядом или, например, продвигать один из них, чтобы повысить продажи обоих.
Приложения Data Mining применяются довольно широко в: розничной торговле, маркетинге, финансах, здравоохранении, промышленном производстве и других областях.
Технологии, используемые в Data Mining
В основе большинства инструментов Data Mining лежат две технологии: машинное обучение и визуализация (визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей.
Эффективность методов машинного обучения в основном определяется их способностью исследовать большее количество взаимосвязей данных, чем может человек.
Обе технологии дополняют друг друга в процессе осуществления Data Mining-анализа. Визуализация используется для поиска исключений, общих тенденций и зависимостей и помогает в извлечении данных на начальном этапе проекта. Машинное обучение используется позднее для поиска зависимостей в уже отлаженном проекте.
Машинное обучение предполагает использование различных методов, например:
Деревья решений предназначены для классификации данных, они используют весовые коэффициенты для распределения элементов данных на всё более и более мелкие группы. Метод ассоциативных правил классифицирует данные на основе набора правил, подобных правилам в экспертных системах. Эти правила можно генерировать, используя процесс поиска и проверки комбинаций правил, или извлекать правила из деревьев решений. В нейронных сетях знания представлены в виде связей, соединяющих набор узлов. Сила связей определяет зависимости между факторами данных.
В таблице 1 приведено краткое описание основных алгоритмов Data Mining.
Таблица 1. Основные алгоритмы Data Mining
Алгоритм | Описание |
Ассоциативные правила | Выявляют причинно следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Правила представлены в форме «если <условия>, то <вывод>». Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). |
Деревья решений и Алгоритмы классификации | Определяют естественные «разбивки» в данных, основанные на целевых переменных. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев (Classification and regression trees, CART) либо хи-квадрат индукция (Chi-squared Automatic Induction, CHAID). |
Искусственные нейронные сети | Здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования. |
Генетические алгоритмы | Этот метод использует итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Для отбора определенных особей и отклонения других используется «функция приспособленности» (fitness function). Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования. |
Вывод путем сопоставления (Memory-based Reasoning, MBR) или вывод, основанный на прецедентах (Case-based Reasoning, CBR) | Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия). |
Кластерный анализ | Подразделяет гетерогенные данные на гомогенные или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования. |
Каждый из методов имеет свои преимущества и недостатки. Преимущество деревьев решений и ассоциативных правил состоит в их читабельности — они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток — в сложности интерпретации.
Существует широкий спектр инструментов для поддержки проектов Data Mining. К ним относятся как общедоступные алгоритмы визуализации и машинного обучения, так и сложные программные пакеты, где используются обе стратегии, работающие на параллельных процессорах. Стоимость последних может достигать нескольких сотен тысяч долларов. Поиск наилучшего инструмента для Data Mining решения зависит от ряда условий, таких как цель проекта (например, анализ потребительской корзины) и размер исследуемой базы данных. При выборе инструментов и алгоритмов очень важна гибкость, поскольку в зависимости от выбора стратегии может быть получен разный результат.
Чтобы разработать такой продукт, необходимо выполнить ряд шагов:
Цель первого прототипа проекта состоит в том, чтобы сократить количество ошибок в базе данных (имеются в виду первый, второй, третий и пятый этапы). Для осознания всех тонкостей исследуемых данных иногда требуется несколько итераций. Для более поздних прототипов важны третий, четвертый и пятый этапы.
Также на распределение времени для Data Mining проекта влияют и другие факторы: тип конечного приложения, наличие и состояние Хранилища данных. Например, если взять приложение для прогнозирования продаж, то обнаруженные отношения между данными можно использовать до тех пор, пока не изменится деятельность компании. И наоборот, при анализе потребительской корзины компания обычно ищет все новые зависимости в данных. Для проекта прогнозирования сбыта больше времени придется потратить на первых трех этапах, а для анализа потребительской корзины — на последних трех.
Многие компании пытаются обрабатывать данные, сгенерированные при выполнении ежедневных операций. Вооружившись технологиями машинного обучения и визуализации можно среди такой, в общем-то, беспорядочной информации обнаружить довольно ценные, хорошо интерпретируемые взаимосвязи. Приложения Data Mining, построенные на этих технологиях, успешно применяются в различных областях, в том числе в розничной торговле и маркетинге, позволяя компаниям добывать информацию, дающую конкурентные преимущества.
[1]Такой перевод точнее передает смысл термина «data mining», чем распространенная калька с английского — «добыча данных» (прим. переводчика).
Дополнительная информация
За дополнительной информацией обращайтесь в компанию Interface Ltd.
INTERFACE Ltd. |
|