|
|
|||||||||||||||||||||||||||||
|
Платформы для Big Data: сравнение вендоровИсточник: bigdata.cnews.ru
Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.
Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн. По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. "Утопая в данных, компании пытаются извлечь нужные, - рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). - Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро". Платформы для аналитики больших данных С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений. Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL - это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами. Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. "В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, - рассказывает эксперт. - Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе". Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.
Источник: Information Week, 2014 Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных. По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор "железа": оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных. Трудности выбора По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: "Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти". Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka. Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, "анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа". По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД. Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией. В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: "Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств". По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: "Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления". Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop. Ссылки по теме
|
|