Аналитики давно обещают технологиям Big Data зеленый свет. Все больше компаний осознают необходимость работы с большими данными и оказываются перед выбором подходящего инструмента.
Этой весной индустрия больших данных получила благотворные вливания капитала и положительные оценки аналитиков. Только в марте этого года Cloudera, разработчик платформы для анализа больших данных на базе Hadoop, привлекла $160 млн инвестиций венчурного капитала. Platfora, также специализирующаяся на разработке аналитических решений для работы с большими данными, получила инвестиции в размере $38 млн.
По данным IDC, рынок решений для работы с большими данными в этом году превысит планку в $16 млрд. Эксперты Allied Market Research обещают, что рынок решений для Hadoop в долгосрочной перспективе подрастет в 25 раз: с $2 млрд в 2013 г. до $50 млрд к 2020 г. "Утопая в данных, компании пытаются извлечь нужные, - рассказывает генеральный директор Platfora Бен Вертер (Ben Werther). - Руководители компаний охотно признают, что до сих пор слишком часто принимают решения интуитивно, поскольку не могут адекватно оценить собранные данные по причине отсутствия доступа и возможности интерпретировать большие пласты новых неоднородных данных достаточно быстро".
Платформы для аналитики больших данных
С проблемой организации работы с большими данными на корпоративном уровне неразрывно связан насущный вопрос: SQL или NoSQL? При разработке нереляционных баз данных (NoSQL) ставка делается на высокую масштабируемость и гибкость решений.
Автор оригинальной версии открытой СУБД MySQL Майкл Видениус в интервью отметил, что основная причина отказа от SQL - это неправильная работа с самой базой. Многие компании не могут себе позволить нанять специалистов для постоянной работы и настройки баз данных, в то время как начать использование NoSQL можно без дополнительных разработок. Однако в дальнейшем возможны сценарии, когда данные выходят из-под контроля или перестают помещаться в оперативной памяти. Если не говорить о гибридных решениях (которые во многом еще только разрабатываются), среди преимуществ NoSQL можно выделить быстрый доступ к данным, хранящимся в оперативной памяти, гибкость использования и возможность быстрого распределения данных между узлами.
Александр Будник, старший ИТ-архитектор Epam Systems, говорит, что сложно выбрать одного вендора аналитических платформ для Big Data даже внутри узкоспециализированных областей. Наиболее универсальной платформой эксперт считает Pentaho, а для решения задач машинного самообучения, таких как, например, кластеризация, классификация, регрессия и другие, лучше подходят Mahout и Spark. "В настоящее время все поставщики традиционных BI-систем, такие как MicroStrategy или SAS, обеспечивают интерфейс с Hadoop, наиболее известным аппаратно-программным комплексом для обработки Big Data, - рассказывает эксперт. - Производители MPP-систем (массово-параллельных архитектур) в свою очередь обеспечивают гораздо более тесную интеграцию c Hadoop, когда данные, хранящиеся и в Hadoop, и в реляционной СУБД, могут быть обработаны в одном SQL-запросе".
Среди наиболее технологичных MPP-платформ специалисты выделяют Vertica и Teradata Aster. В последнее время появилось множество платформ, работающих с большими данными и поддерживающих быструю аналитику, например, MemSQL или Splice Machine. Неясно только, кто из них выживет.
Топ-16 аналитических платформ для работы с большими данными |
Вендор |
Аналитические СУБД |
СУБД в оперативной памяти: |
Решения на базе Hadoop |
Технология обработки потоковых данных |
Возможность покупки в виде ПО или аппаратного оборудования |
1010data |
1010data аналитическая столбчатая база данных |
- |
- |
- |
только в облаке |
Actian |
Actian Matrix (в прошлом ParAccel), Actian Vector (в прошлом Vectorwise) |
Actian Matrix In-Memory Option (данные хранятся в памяти и на диске) |
- |
- |
ПО |
Amazon |
Amazon Redshift Service (на базе ParAccel), Amazon Relational Database Service |
- Решения других компаний на базе AWS включают Altibase, SAP Hana, и ScaleOut |
Amazon Elastic MapReduce, сторонние предложения включают Cloudera and MapR |
Amazon Kinesis |
только в облаке |
Cloudera |
Нереляционная БД, но Cloudera Impala поддерживает SQL-запросы на Hadoop) |
Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop |
Опенсорсные программы CDH, Cloudera Standard, Cloudera Enterprise |
Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm |
Доступны в разных вариантах от Cisco, Dell, HP, IBM, NetApp, и Oracle |
HP |
HP Vertica Analytics Platform Version 7 (версия Crane) |
Не является "in-memory" СУБД, но, по заявлению разработчиков, при высоком коэффициенте RAM-to-disk обеспечивает обработку запросов в близком к реальному времени |
- |
- |
HP Converged System 300 для Vertica |
Hortonworks |
Нереляционная БД, но опция Hive поддерживает SQL-запросы |
Apache Spark поддерживает аналитические вычисления в оперативной памяти на Hadoop |
Hortonworks Data Platform (HDP) 2.0, HDP для Windows, Hortonworks Sandbox |
Решения по обработке потоковых вычислений с открытым кодом на Hadoop, включая Storm |
Оборудование партнеров, преднастроенные архитектуры от HP, Teradata и др. |
IBM |
DB2, Netezza |
DB2 c поддержкой BLU Acceleration, solidDB |
InfoSphere BigInsights |
InfoSphere Streams |
Система оперативной аналитики на базе PureData (DB2), аналитическая система IBM на базе PureData (Netezza), система для Hadoop на базе PureData (BigInsights). |
InfiniDB |
InfiniDB (в прошлом Calpoint) |
- |
- |
- |
только ПО |
Infobright |
Infobright |
- |
- |
- |
Infobright Infopliance |
Kognitio |
Аналитическая платформа Kognitio |
Аналитическая платформа Kognitio |
- |
- |
Kognitio Appliance |
MapR |
Нереляционная БД, но поддерживает такие решения SQL-on-Hadoop, как Drill, Hive, Impala, Shark, и др. |
Обеспечивается благодаря опенсорсным проектам Drill и Shark |
MapR M3, MapR M5, MapR M7 |
Поддержка анализа потоковых данных благодаря Storm и посредством интеграции с Informatica Hparser |
Аппаратные конфигурации доступны от партнеров: Cisco, HP, IBM, и NetApp |
Microsoft |
SQL Server 2012 Parallel Data Warehouse (PDW) |
SQL Server 2014 In-Memory OLTP (доступна как опция с SQL Server 2014, релиз ожидается во втором квартале 2014 г.) |
Microsoft StreamInsight |
HDInsight, Windows Azure HDInsight Service (создан на базе Hortonworks Data Platform) |
Dell Parallel Data Warehouse Appliance, HP Enterprise Parallel Data Warehouse Appliance |
Oracle |
Oracle Database, Oracle MySQL, Oracle Essbase |
Oracle TimesTen, Oracle Database 12c In-Memory Option (анонсировалась в 2013 г., подробностей не сообщалось) |
Oracle Event Processing |
Продажей и поддержкой занимается Cloudera Enterprise |
Exadata, Exalytics, Oracle Big Data Appliance |
Pivotal |
Pivotal Greenplum Database |
Pivotal GemFire и SQLFire. Pivotal HD используется в комбинации с GemFire XD и HAWQ для in-memory анализа на Hadoop. |
Готовится интеграция GemFire (NoSQL) и системы управления данными in-memory SQLFire с Pivotal Hadoop и Spring XD, с целью создания масштабируемого решения для анализа потоковых данных |
Pivotal HD |
Pivotal Data Computing Appliance |
SAP |
SAP Hana, SAP IQ |
SAP Hana |
SAP Event Stream Processing |
Обеспечивает продажу и поддержку Hortonworks, Intel; интеграции с Hadoop, сертифицированные Cloudera и MapR |
Среди партнеров по оборудованию - Dell, Cisco, Fujitsu, Hitachi, HP и IBM |
Teradata |
Teradata, Teradata Aster |
Не является in-memory СУБД, но Teradata Intelligent Memory отслеживает запросы и автоматически перемещает наиболее востребованные данные в самые быстрые из доступных хранилищ, в том числе RAM, flash, SSD7 |
- |
Обеспечивает продажу и поддержку Hortonworks Data Platform |
Является интегрируемой аппаратной и/или программной системой. Hadoop поддерживается двумя аппаратными решениями Teradata, а также конфигурациями от Dell |
Источник: Information Week, 2014
Отдельного внимания заслуживает опенсорсная платформа Intel для Hadoop, не попавшая в таблицу. Intel, конкурирующая с Hortonworks, Cloudera и другими разработчиками программного обеспечения для Hadoop, продолжает работу над ПО для работы с Big Data с открытым исходным кодом. Как рассказал изданию PCWorld Джейсон Феддер (Jason Fedder), генеральный директор по маркетингу Intel в Азиатско-Тихоокеанском регионе, решения на основе Hadoop сейчас играют одну из ключевых ролей в индустрии больших данных.
По словам эксперта, привлекательность решения Intel для Hadoop обуславливает и фактор "железа": оптимизация, выполненная с учетом архитектуры процессоров Xeon и специфики работы твердотельных накопителей с контроллерами Intel, позволяет добиться значительного прироста производительности. Процессоры Xeon ускоряют операции шифрования или дешифрования по алгоритму AES, что реализуется при помощи дополнительного набора команд AES-NI. Кроме того, платформа Intel для Hadoop также предлагает расширенные возможности и в сфере обработки потоковых данных.
Трудности выбора
По мнению Александра Будника, для систем, получающих аналитические данные в масштабе, близком к реальному времени, ключевыми являются требования не только к производительности, но и ко времени отклика (к примеру, IBM говорит об отклике меньше миллисекунды). Это весьма ограничивает выбор аналитических платформ: "Вы не сможете использовать колоссальную вычислительную мощность Hadoop, так как только накладные расходы на инициирование и завершение тривиальной MapReduce-программы составляют десятки секунд. Обеспечить приемлемое время отклика могут либо достаточно дорогие MPP-платформы (например, Netezza, Teradata, Greenplum), либо распределенные системы с развитой индексацией или высоким уровнем резидентности данных в оперативной памяти".
Большинство аналитических систем все еще использует реляционную модель данных, в результате чего выбор платформ сужается до таких решений, как GridGain или Gigaspaces XAP. Для работы с потоковыми данными в режиме онлайн были созданы относительно новые на сегодняшний день технологии Storm, Spark Streaming и Akka.
Как рассказали в видоинтервью изданию Information Week Бет Шультц (Beth Schultz) и Майкл Штайнер (Michael Steiner), редакторы вебсайта AllAnalytics, "анализ данных с помощью SQL на Hadoop не позволяет достичь того максимума, который предлагает платформа". По сведениям экспертов, компании выбирают Hadoop, чтобы собирать сложные и разнообразные данные: история посещений вебсайтов, логи, данные об использовании мобильных устройств и информация из соцсетей, и многое другое. Этими данными нелегко оперировать в СУБД.
Можно извлечь структурированные данные из Hadoop для SQL-анализа, но более перспективными представляются другие подходы, такие как машинное самообучение и прочие, позволяющие соотнести новые данные с уже накопленной, проанализированной и структурированной информацией.
В интервью с Information Week Бен Вертер, генеральный директор компании Platfora, отметил: "Практически в каждой из компаний, с которыми мы работаем, системы BI и SQL достаточно хорошо себя показали, но возникают новые потребности и новые вопросы за пределами текущих возможностей. Сейчас уже недостаточно увидеть количество продаж в разных отделениях. Клиент теперь хочет понять, как история посещений веб-сайта зависит от работы физического магазина. Новые интересы строятся вокруг связей между традиционными источниками данных и новым миром цифровых кликов, онлайн-рекламы, а также данных из соцсетей и мобильных устройств".
По словам Александра Горного, директора по информационным технологиям компании Mail.ru, практически все функции системы Mail.ru основаны на технологиях Big Data: "Анализ больших данных позволяет нам отличить спам от не спама, выбрать баннер индивидуально для конкретного пользователя, предложить пользователю подружиться с другим пользователем или подписаться на определенные обновления".
Уже недостаточно просто управлять данными. Кроме того, компании не могут полагаться только на аналитику, им также нужны решения из сферы BI, системы сбора и передачи оперативной информации и т.д. Грань между этими понятиями начала размываться, считает Даг Хеншен (Doug Henschen) из Information Week, в тот момент, когда SAS, Alpine Data Labs и другие стали поддерживать кластеризованные серверные среды, требовательные к памяти и Hadoop.