Платформы для Big Data: сравнение вендоров

Источник: bigdata.cnews.ru

Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.

Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн.

По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. "Утопая в данных, компании пытаются извлечь нужные, - рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). - Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро".

Платформы для аналитики больших данных

С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений.

Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL - это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами.

Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. "В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, - рассказывает эксперт. - Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе".

Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.

Топ-16 аналитических платформ для работы с большими данными
Вендор	Аналитические СУБД	СУБД в оперативной памяти:	Решения на базе Hadoop	Технология обработки потоковых данных	Возможность покупки в виде ПО или аппаратного оборудования
1010data	1010data аналитическая столбчатая база данных	-	-	-	только в облаке
Actian	Actian Matrix (в прошлом ParAccel), Actian Vector (в прошлом Vectorwise)	Actian Matrix In-Memory Option (данные хранятся в памяти и на диске)	-	-	ПО
Amazon	Amazon Redshift Service (на базе ParAccel), Amazon Relational Database Service	- Решения других компаний на базе AWS включают Altibase, SAP Hana, и ScaleOut	Amazon Elastic MapReduce, сторонние предложения включают Cloudera and MapR	Amazon Kinesis	только в облаке
Cloudera	Нереляционная БД, но Cloudera Impala поддерживает SQL-запросы на Hadoop)	Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop	Опенсорсные программы CDH, Cloudera Standard, Cloudera Enterprise	Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm	Доступны в разных вариантах от Cisco, Dell, HP, IBM, NetApp, и Oracle
HP	HP Vertica Analytics Platform Version 7 (версия Crane)	Не является "in-memory" СУБД, но, по заявлению разработчиков, при высоком коэффициенте RAM-to-disk обеспечивает обработку запросов в близком к реальному времени	-	-	HP Converged System 300 для Vertica
Hortonworks	Нереляционная БД, но опция Hive поддерживает SQL-запросы	Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop	Hortonworks Data Platform (HDP) 2.0, HDP для Windows, Hortonworks Sandbox	Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm	Оборудование партнеров, преднастроенные архитектуры от HP, Teradata и др.
IBM	DB2, Netezza	DB2 c поддержкой BLU Acceleration, solidDB	InfoSphere BigInsights	InfoSphere Streams	Система оперативной аналитики на базе PureData (DB2), аналитическая система IBM на базе PureData (Netezza), система для Hadoop на базе PureData (BigInsights).
InfiniDB	InfiniDB (в прошлом Calpoint)	-	-	-	только ПО
Infobright	Infobright	-	-	-	Infobright Infopliance
Kognitio	Аналитическая платформа Kognitio	Аналитическая платформа Kognitio	-	-	Kognitio Appliance
MapR	Нереляционная БД, но поддерживает такие решения SQL-on-Hadoop, как Drill, Hive, Impala, Shark, и др.	Обеспечивается благодаря опенсорсным проектам Drill и Shark	MapR M3, MapR M5, MapR M7	Поддержка анализа потоковых данных благодаря Storm и посредством интеграции с Informatica Hparser	Аппаратные конфигурации доступны от партнеров: Cisco, HP, IBM, и NetApp
Microsoft	SQL Server 2012 Parallel Data Warehouse (PDW)	SQL Server 2014 In-Memory OLTP (доступна как опция с SQL Server 2014, релиз ожидается во втором квартале 2014 г.)	Microsoft StreamInsight	HDInsight, Windows Azure HDInsight Service (создан на базе Hortonworks Data Platform)	Dell Parallel Data Warehouse Appliance, HP Enterprise Parallel Data Warehouse Appliance
Oracle	Oracle Database, Oracle MySQL, Oracle Essbase	Oracle TimesTen, Oracle Database 12c In-Memory Option (анонсировалась в 2013 г., подробностей не сообщалось)	Oracle Event Processing	Продажей и поддержкой занимается Cloudera Enterprise	Exadata, Exalytics, Oracle Big Data Appliance
Pivotal	Pivotal Greenplum Database	Pivotal GemFire и SQLFire. Pivotal HD используется в комбинации с GemFire XD и HAWQ для in-memory анализа на Hadoop.	Готовится интеграция GemFire (NoSQL) и системы управления данными in-memory SQLFire с Pivotal Hadoop и Spring XD, с целью создания масштабируемого решения для анализа потоковых данных	Pivotal HD	Pivotal Data Computing Appliance
SAP	SAP Hana, SAP IQ	SAP Hana	SAP Event Stream Processing	Обеспечивает продажу и поддержку Hortonworks, Intel; интеграции с Hadoop, сертифицированные Cloudera и MapR	Среди партнеров по оборудованию - Dell, Cisco, Fujitsu, Hitachi, HP и IBM
Teradata	Teradata, Teradata Aster	Не является in-memory СУБД, но Teradata Intelligent Memory отслеживает запросы и автоматически перемещает наиболее востребованные данные в самые быстрые из доступных хранилищ, в том числе RAM, flash, SSD7	-	Обеспечивает продажу и поддержку Hortonworks Data Platform	Является интегрируемой аппаратной и/или программной системой. Hadoop поддерживается двумя аппаратными решениями Teradata, а также конфигурациями от Dell

^{Источник: Information Week, 2014}

Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных.

По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор "железа": оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных.

Трудности выбора

По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: "Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти".

Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka.

Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, "анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа". По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД.

Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией.

В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: "Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств".

По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: "Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления".

Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop.

Ссылки по теме