Бизнес-анализ больших данных

Источник: IBM

Меняются методы ведения бизнеса. Меняется поведение потребителей. Меняются сами потребители. И каждый стремится знать - почему, а не только кто или как. Теперь уже мало просто понимать, как компания перешла из пункта A в пункт B. Для сохранения конкурентоспособности предприятия стремятся в реальном времени узнавать, когда клиенты что-то покупают, где они покупают, и даже что они думают перед тем, как зайти в магазин или посетить web-сайт. Помощь в этом могут оказать большие данные, анализ больших данных и интегрированная платформа для бизнес-аналитики (BI) и анализа больших данных.

Анализ больших данных молод, и динамичная бизнес-аналитика является новым понятием. Как можно интегрировать эти похожие, но разные концепции? Речь идет не только о данных или технологиях, а обо всем - включая социальные сети, поведение потребителей и сегментацию клиентов. Вы не можете просто подключить программно-аппаратный комплекс для управления большими данными - и увидеть будущее. Бизнес-анализ, управление мастер-данными (master data management, MDM), большие данные и аналитика должны быть интегрированы на одной платформе и превратиться в единое инновационное решение.

Бизнес-аналитика и анализ больших данных: сходства и различия

Бизнес-анализ - понятие не новое. Хранилища данных, углубленный анализ данных и технологии баз данных существуют в разных формах уже много лет. Сам термин "большие данные", может быть, и нов, однако многие ИТ-специалисты в разных отраслях уже давно работают с большими объемами данных.

Но сегодня большие данные - это не просто большие объемы данных. Новым является исследование и анализ полуструктурированных и неструктурированных данных. Пятнадцать лет назад мы не анализировали электронные письма, PDF-файлы или видеоматериалы. Интернет был просто забавой. Распределенные вычисления появились не вчера, однако возможность мгновенно распределять и масштабировать систему - и при меньших затратах - это новшество. В самом желании предсказывать будущее нет ничего нового, однако новой является возможность использовать и хранить все создаваемые данные.

По данным из разных источников, возраст 90% существующих сегодня данных не превышает двух лет. При этом объемы данных продолжают стремительно расти. Если 90% всех данных в мире были созданы в течение последних двух лет, то что можно сказать об этих данных?

Многие предприятия используют множество систем управления базами данных от разных поставщиков, управляя терабайтами или даже петабайтами данных. В некоторых из этих систем хранятся данные за 30 или 40 лет. Многие предприятия создавали платформы для хранения и анализа, ориентируясь на эти старые данные. Крупные розничные компании, такие как Wal-Mart, получали миллиардные прибыли задолго до появления больших данных. То есть их бизнес успешно развивался не благодаря данным.

Тем не менее концепция данных как сервиса может быть весьма полезной для бизнеса. Рассмотрим, к примеру, Amazon. Эта компания специализировалась на электронной коммерции. В настоящее время Amazon воспринимается как поставщик платформ как сервиса, программного обеспечения как сервиса, больших данных как сервиса, а также услуг облачного центра обработки данных. За эти годы Amazon разработала потрясающий механизм рекомендаций на базе различных технологий с открытым исходным кодом. Zynga, поставщик игр для Facebook, известный такими своими хитами, как Ферма, использует облачные сервисы Amazon для масштабирования своих собственных баз данных и аналитики.

Чтобы данные были полезны пользователям, необходимо интегрировать клиентов с данными о финансах и продажах, информацией о продуктах, маркетинговыми данными, социальными сетями, демографическими данными, сведениями о конкурентах и так далее.

Сложности создания системы для бизнес-аналитики и анализа больших данных

Разработка интегрированной платформы никогда не бывает простой. Извлечение, преобразование и загрузка (ETL) всегда является самым продолжительным этапом в проектах по развертыванию хранилищ данных. Существуют различные оптимальные методики ETL; иногда они работают, а иногда нет. Если процесс ETL не будет функционировать должным образом, то у вас внезапно окажутся неверные и сомнительные данные. Ненадежность данных ведет к ненадежной и неиспользуемой системе. А этого не хочет никто.

Можно подумать, что база данных продуктов - это просто. Но она становится игрой версий, ошибок, обновлений, разных выпусков, разных циклов выпуска, разных лицензий и разных лицензий на базе местоположения. И это в компании с небольшим ассортиментом продуктов. В розничных компаниях, предлагающих тысячи различных товаров, все еще намного сложнее.

Интегрированные платформы для бизнес-аналитики и анализа больших данных могут хранить неструктурированные данные из электронных писем. Они могут включать полуструктурированные данные из регистрационных журналов. Системы электронной почты могут быть рассредоточены по разным базам данных во множестве центров обработки данных по всему миру. Добавьте несколько межсетевых экранов, - и внезапно перемещение данных из одного места в другое становится логическим кошмаром, требующим отдельного проекта. Системные журналы могут быть неформатированными, полуформатированными или полной неразберихой - вот и еще один проект.

Технологии больших данных, такие как Apache Hadoop, предусматривают перемещение системы туда, где находятся данные, вместо того чтобы перемещать данные в систему, и тому есть причина. Для перемещения данных по сетям через межсетевые экраны требуется время. Вы теряете данные, пакеты, файлы. Большой проблемой становится доверие.

Ключевая концепция noSQL и Hadoop - это перемещение приложения к данным, однако и это не так просто. Если у вас 100 разных систем, то надо ли добавлять 100 экземпляров одного и того же приложения в каждую систему? Хотя некоторые могут полагать, что они довели MDM до совершенства, этого не сделал никто. Если у вас одна система MDM для продуктов, еще одна для продаж и еще одна для клиентов, и при этом они не интегрированы или не могут быть легко связаны, то добавление приложения в каждую из систем не обеспечит их интеграции или связывания. Останется система с множеством изолированных массивов данных, которые невозможно связать.

Даже если предприятие развернуло приложение для больших данных на превосходной платформе, которая интегрирует и связывает всевозможные виды данных, возникнут серьезные проблемы. Нельзя просто взять и запустить сложные алгоритмы на системе, с которой работают пользователи - она может этого не выдержать. Ее производительность может упасть. Могут быть испорчены данные. Могут возникнуть проблемы с безопасностью. Установка приложения с высокими требованиями к дисковому пространству, оперативной памяти и производительности может привести к отказу старой системы. Приложение может даже не работать должным образом на таких старых системах. И даже если оно будет работать, есть ли какое-нибудь отличие от существующих, несвязанных MDM- или BI-систем?

Платформа для бизнес-аналитики и анализа больших данных должна быть инновационной. Это должна быть платформа нового поколения. Необходимо использовать технологии обработки в оперативной памяти или сконфигурировать систему для использования таких инструментов, как Hadoop и Apache Cassandra, в качестве промежуточной области, песочницы, системы хранения, чтобы она стала новой, более совершенной ETL-системой. Платформа должна интегрировать структурированные, неструктурированные и полуструктурированные данные. Это головоломка из множества элементов.

Решения

Интегрированная платформа для бизнес-аналитики и анализа больших данных - это особая система. Вы должны сделать выбор - разработать ее самостоятельно или приобрести. Вы должны учесть существующие системы, сценарии использования, а также уровень опыта и компетентности ваших сотрудников. Некоторые компании могут выбрать разработку системы полностью на базе открытого исходного кода, не используя ничего, кроме Hadoop (Hadoop Distributed File System [HDFS] и MapReduce), Zookeeper, Solr, Sqoop, Hive, HBase, Nagios и Cacti, а другим может потребоваться активная поддержка и создание системы с использованием IBM® InfoSphere® BigInsights™ и IBM Netezza. Какие-то компании могут пожелать разделить структурированные и неструктурированные данные и создать слой графических пользовательских интерфейсов для обычных пользователей, квалифицированных пользователей и приложений.

Все действительно зависит от компании. И это не просто система "подключил и пользуйся". Вне зависимости от выбора - создать или купить, - есть множество элементов на каждом уровне.

ETL

ETL, прием данных и все связанные процессы всегда являются важным первым шагом, вторым шагом, третьим шагом и так далее. Нельзя просто надстроить приложение для больших данных над транзакционной системой и надеяться на то, что все будет работать без ущерба для исходной системы, или ожидать хорошей интеграции с чем-либо еще, кроме используемой системы. Следовательно, необходим какой-то механизм приема данных в Hadoop или любую другую noSQL-систему либо хранилище данных с массовой параллельной обработкой (massively parallel processing, MPP). Есть различные инструменты и методики, и многое зависит от систем, источников, данных, размера и специалистов.

Вы можете начать с чего-либо типа Sqoop. Это отличный инструмент для приема данных из реляционных систем управления базами данных. Добавление другого инструмента с открытым исходным кодом, такого как Flume или Scribe, может помочь справиться с регистрационными журналами. Также существуют ETL-инструменты, такие как Talend или IBM InfoSphere DataStage®, включающие теперь средства интеграции больших данных. Эти инструменты более наглядны и не требуют глубоких познаний в компьютерных науках для создания инфраструктуры. Оба инструмента включают в себя техническую документацию, обновления и графический пользовательский интерфейс. Они постоянно совершенствуются и используются многими предприятиями во многих отраслях.

Некоторые компании предпочитают только открытый исходный код. У других может быть множество систем на базе различных продуктов IBM. Безусловно, важным аспектом является интеграция того, что уже используется, с новыми технологиями.

Создание своей собственной ETL-системы - дело весьма трудоемкое, и будет очень печально, если в результате вы не получите то, что нужно. Hadoop включает множество элементов, и вам может потребоваться не только Sqoop. Интеграция и добавление множества элементов может быть очень сложной, в особенности если вам не хватает опыта и знаний, или если вы хотите создать свой собственный ETL-инструмент. Этот процесс требует времени и терпения, и вы можете столкнуться с проблемами. Например, вы будете использовать инструмент с открытым исходным кодом, который сообщество Open Source впоследствии забросит. Или же вы сконфигурируете и разработаете свой собственный ETL-инструмент с различными внутренними приложениями и инструментами с открытым исходным кодом, а потом сообщество Open Source внесет небольшие изменения, или несколько ваших разработчиков покинут компанию - и вы внезапно окажетесь с системой, которую никто не умеет поддерживать или исправлять.

Здравомыслящие предприятия принимают во внимание свои кадры, навыки, бюджеты и потенциал и являются реалистами. Например, если предприятие имеет относительно небольшой штат ИТ-специалистов, то не стоит присматриваться к тому, как создают свои системы Google или Facebook. Не сравнивайте ваш небольшой ИТ-отдел с компаниями, имеющими несколько серверов, а также квалифицированных компьютерных специалистов, работающих над такими инфраструктурами и системами. Иногда единственным возможным вариантом могут оказаться облачные сервисы или внешние специалисты. В других случаях наилучшим выбором являются такие программно-аппаратные комплексы, как Netezza.

Хранение

Хранение данных является важнейшим фактором и может потребовать от вас использования различных технологий. В системе Hadoop есть HBase. Однако некоторые компании используют Cassandra, Neo4j, Netezza, HDFS и другие технологии, в зависимости от потребностей. HDFS - это система файлового хранения. HBase - это столбцовая база данных, сходная с Cassandra. Многие компании используют Cassandra для анализа, более приближенного к реальному времени. Однако HBase совершенствуется.

Вы можете рассматривать в качестве кандидатов HBase или Cassandra, если хотите использовать систему управления базами данных с открытым исходным кодом для анализа больших данных. Что касается платформ для развертывания хранилищ данных, одной из лучших технологий в мире аналитики и бизнес-анализа является Netezza. Наилучшим вариантом для интеграции больших данных является использование интегрированной платформы, которая включает Hadoop и Cassandra для неструктурированных или полуструктурированных данных и Netezza для структурированных данных.

Программно-аппаратный комплекс IBM Netezza Customer Intelligence Appliance объединяет в одной платформе несколько различных технологий. На верхнем, пользовательском, уровне используется программное обеспечение IBM Cognos® BI для бизнес-анализа и формирования отчетов. Cognos BI - это мощный продукт, который многие предприятия используют для удовлетворения различных потребностей в бизнес-анализе и хранении данных. На уровне хранилища данных Netezza предоставляет превосходную MPP-систему управления базами данных. Эта система предназначена для структурированных данных, но при использовании Hadoop или Cassandra для неструктурированных или полуструктурированных данных вы можете создать интегрированную платформу для бизнес-аналитики и анализа больших данных.

Графический пользовательский интерфейс

На уровне графического пользовательского интерфейса система содержит целый ряд разнообразных элементов. Квалифицированные специалисты могут использовать такие инструменты, как IBM SPSS® Statistics или R, для углубленного анализа данных, предиктивного моделирования, машинного обучения и создания сложных алгоритмов и моделей. Ваши специалисты по повседневным продажам могут использовать что-то типа Cognos для подготовки отчетов по результатам бизнес-анализа, отчетов о больших данных, а также использования информационных панелей и карт показателей. Инструменты, подобные Cognos, предоставляют разным категориям пользователей возможность исследовать данные или просматривать простые отчеты.

Есть и другие элементы для уровня графического пользовательского интерфейса, такие как инструменты машинного обучения (например, Apache Mahout) или Apache Hive (для языка структурированных запросов), но эти инструменты могут также быть частью инфраструктуры. Самым важным фактором является интеграция структурированных данных и неструктурированных данных в рамках инфраструктуры бизнес-анализа, хранения данных и анализа больших данных. Это сервис? Кто его пользователи?

Пользователей не заботит инфраструктура. Их не волнует, является ли она интегрированной. Для них важно только получать нужные данные в нужное время.

Заключение

Интеграция бизнес-аналитики и анализа больших данных является непростой задачей. Цель развертывания любой информационной или аналитической системы состоит в обеспечении полезности и доступности данных для как можно большего количества пользователей. Один из путей к достижению этой цели предоставляют программно-аппаратные комплексы для работы с большими данными. Другой путь - система с открытым исходным кодом Hadoop. Оба варианта требуют времени, терпения и инноваций.

Систему с открытым исходным кодом можно развернуть значительно быстрее и дешевле, однако потребуются специалисты с соответствующей квалификацией. Если у вас нет опыта работы с большими данными, то предлагаемый поставщиком программно-аппаратный комплекс для обработки больших данных может быть лучшим, хотя и более дорогим, вариантом. Не забывайте, что не каждый хочет быть создателем программного обеспечения или оборудования. Иногда для достижения цели при создании интегрированной платформы для бизнес-аналитики и анализа больших данных требуется сочетание собственных разработок и покупок.


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=35306