(495) 925-0049, ITShop интернет-магазин 229-0436, Учебный Центр 925-0049
  Главная страница Карта сайта Контакты
Поиск
Вход
Регистрация
Рассылки сайта
 
 
 
 
 

Платформы для Big Data: сравнение вендоров

Источник: bigdata.cnews.ru

Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.

Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн.

По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. "Утопая в данных, компании пытаются извлечь нужные, - рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). - Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро".

Платформы для аналитики больших данных

С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений.

Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL - это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами.

Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. "В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, - рассказывает эксперт. - Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе".

Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.

Топ-16 аналитических платформ для работы с большими данными

Вендор Аналитические СУБД СУБД в оперативной памяти: Решения на базе Hadoop Технология обработки потоковых данных Возможность покупки в виде ПО или аппаратного оборудования
1010data 1010data аналитическая столбчатая база данных - - - только в облаке
Actian Actian Matrix (в прошлом ParAccel), Actian Vector (в прошлом Vectorwise) Actian Matrix In-Memory Option (данные хранятся в памяти и на диске) - - ПО
Amazon Amazon Redshift Service (на базе ParAccel), Amazon Relational Database Service -
Решения других компаний на базе AWS включают Altibase, SAP Hana, и ScaleOut
Amazon Elastic MapReduce, сторонние предложения включают Cloudera and MapR Amazon Kinesis только в облаке
Cloudera Нереляционная БД, но Cloudera Impala поддерживает SQL-запросы на Hadoop) Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop Опенсорсные программы CDH, Cloudera Standard, Cloudera Enterprise Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm Доступны в разных вариантах от Cisco, Dell, HP, IBM, NetApp, и Oracle
HP HP Vertica Analytics Platform Version 7 (версия Crane) Не является "in-memory" СУБД, но, по заявлению разработчиков, при высоком коэффициенте RAM-to-disk обеспечивает обработку запросов в близком к реальному времени - - HP Converged System 300 для Vertica
Hortonworks Нереляционная БД, но опция Hive поддерживает SQL-запросы Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop Hortonworks Data Platform (HDP) 2.0, HDP для Windows, Hortonworks Sandbox Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm Оборудование партнеров, преднастроенные архитектуры от HP, Teradata и др.
IBM DB2, Netezza DB2 c поддержкой BLU Acceleration, solidDB InfoSphere BigInsights InfoSphere Streams Система оперативной аналитики на базе PureData (DB2), аналитическая система IBM на базе PureData (Netezza), система для Hadoop на базе PureData (BigInsights).
InfiniDB InfiniDB (в прошлом Calpoint) - - - только ПО
Infobright Infobright - - - Infobright Infopliance
Kognitio Аналитическая платформа Kognitio Аналитическая платформа Kognitio - - Kognitio Appliance
MapR Нереляционная БД, но поддерживает такие решения SQL-on-Hadoop, как Drill, Hive, Impala, Shark, и др. Обеспечивается благодаря опенсорсным проектам Drill и Shark MapR M3, MapR M5, MapR M7 Поддержка анализа потоковых данных благодаря Storm и посредством интеграции с Informatica Hparser Аппаратные конфигурации доступны от партнеров: Cisco, HP, IBM, и NetApp
Microsoft SQL Server 2012 Parallel Data Warehouse (PDW) SQL Server 2014 In-Memory OLTP (доступна как опция с SQL Server 2014, релиз ожидается во втором квартале 2014 г.) Microsoft StreamInsight HDInsight, Windows Azure HDInsight Service (создан на базе Hortonworks Data Platform) Dell Parallel Data Warehouse Appliance, HP Enterprise Parallel Data Warehouse Appliance
Oracle Oracle Database, Oracle MySQL, Oracle Essbase Oracle TimesTen, Oracle Database 12c In-Memory Option (анонсировалась в 2013 г., подробностей не сообщалось) Oracle Event Processing Продажей и поддержкой занимается Cloudera Enterprise Exadata, Exalytics, Oracle Big Data Appliance
Pivotal Pivotal Greenplum Database Pivotal GemFire и SQLFire. Pivotal HD используется в комбинации с GemFire XD и HAWQ для in-memory анализа на Hadoop. Готовится интеграция GemFire (NoSQL) и системы управления данными in-memory SQLFire с Pivotal Hadoop и Spring XD, с целью создания масштабируемого решения для анализа потоковых данных Pivotal HD Pivotal Data Computing Appliance
SAP SAP Hana, SAP IQ SAP Hana SAP Event Stream Processing Обеспечивает продажу и поддержку Hortonworks, Intel; интеграции с Hadoop, сертифицированные Cloudera и MapR Среди партнеров по оборудованию - Dell, Cisco, Fujitsu, Hitachi, HP и IBM
Teradata Teradata, Teradata Aster Не является in-memory СУБД, но Teradata Intelligent Memory отслеживает запросы и автоматически перемещает наиболее востребованные данные в самые быстрые из доступных хранилищ, в том числе RAM, flash, SSD7 - Обеспечивает продажу и поддержку Hortonworks Data Platform Является интегрируемой аппаратной и/или программной системой. Hadoop поддерживается двумя аппаратными решениями Teradata, а также конфигурациями от Dell

Источник: Information Week, 2014

Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных.

По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор "железа": оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных.

Трудности выбора

По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: "Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти".

Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka.

Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, "анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа". По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД.

Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией.

В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: "Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств".

По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: "Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления".

Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop.

Ссылки по теме


 Распечатать »
 Правила публикации »
  Написать редактору 
 Рекомендовать » Дата публикации: 22.04.2014 
 

Магазин программного обеспечения   WWW.ITSHOP.RU
Oracle Database Personal Edition Named User Plus Software Update License & Support
IBM DOMINO ENTERPRISE CLIENT ACCESS LICENSE AUTHORIZED USER ANNUAL SW SUBSCRIPTION & SUPPORT RENEWAL
Microsoft Windows Professional 10, Электронный ключ
Microsoft Office для дома и учебы 2019 (лицензия ESD)
IBM Domino Messaging Client Access License Authorized User License + SW Subscription & Support 12 Months
 
Другие предложения...
 
Курсы обучения   WWW.ITSHOP.RU
 
Другие предложения...
 
Магазин сертификационных экзаменов   WWW.ITSHOP.RU
 
Другие предложения...
 
3D Принтеры | 3D Печать   WWW.ITSHOP.RU
 
Другие предложения...
 
Новости по теме
 
Рассылки Subscribe.ru
Информационные технологии: CASE, RAD, ERP, OLAP
Безопасность компьютерных сетей и защита информации
Новости ITShop.ru - ПО, книги, документация, курсы обучения
Программирование на Microsoft Access
CASE-технологии
eManual - электронные книги и техническая документация
Мастерская программиста
 
Статьи по теме
 
Новинки каталога Download
 
Исходники
 
Документация
 
 



    
rambler's top100 Rambler's Top100