Создание безопасной среды Hadoop с помощью продукта IBM InfoSphere Guardium

Источник: ibm

Все преимущества, которые способна предоставить среда Hadoop, зависят от наличия средств защиты, обеспечиваемых внешним программным решением для обеспечения безопасности. В той мере, как различаются конфигурации сред Hadoop для работы с большими данными, различаются и требования к средствам для защиты этих сред. Все среды для работы с большими данными подвержены рискам, поэтому им необходима встроенная защита от несанкционированного использования, от угроз, от кибератак, от некорректных входных данных и от прочих проблем. С этой целью корпорация IBM предлагает IBM® InfoSphere® Guardium®- передовое решение для обеспечения безопасности в среде Hadoop и для защиты больших данных. Познакомьтесь поближе с системой InfoSphere Guardium и с ее возможностями, которые помогут защитить вашу среду Hadoop.

Решение Apache Hadoop было первоначально спроектировано с целью администрирования доступа широкой публики к информации компании Google. Ценность Hadoop как новаторской технологии повысилась, когда было обнаружено, что Hadoop также можно использовать в качестве платформы для управления неструктурированными данными на многих распределенных узлах. Несмотря на популярность программного кода Hadoop у ИТ-компаний, в него не было внесено никаких изменений для поддержки усовершенствованных средств защиты или для соблюдения нормативных требований по безопасности. Чтобы среду Hadoop можно было использовать в современных условиях, ей требуется надежная модель обеспечения безопасности со встроенной защитой от нескольких уровней уязвимостей, которые возникают при хостинге больших данных. Система Hadoop Core предлагает аутентификацию на уровне сервисов при многоуровневом администрировании плюс базовые функции защиты от утечек данных. Самым распространенным в Hadoop средством для защиты доступа к кластерам больших данных является пароль пользователя.

Обычно для хранения больших данных используются кластеры или частное облако, однако для виртуальной среды требуются функции защиты данных, распознающие виртуальные машины, узлы и сети. Кластеры больших данных способны выдерживать переключение узлов без потери данных или без прерывания обслуживания, однако меры по соблюдению единообразия безопасности на узлах и перезагрузки узлов порождают серьезные проблемы производительности в среде Hadoop. Отвечая на потребность отрасли в продвинутом решении для обеспечения безопасности в распределенных средах Hadoop, корпорация IBM представила линейку инновационных продуктов безопасности под общим названием IBM Security QRadar® SIEM(Security Information and Event Management). Security QRadar SIEM включает следующие компоненты и технологии: управление узлами IBM QRadar, ArcSight, RSA Envision, Radius, IBM InfoSphere Guardium, Tivoli® и HP OpenView по протоколу SNMP (Simple Network Management Protocol); соответствие стандартам оценки уязвимости CVE (Common Vulnerability and Exposures), STIG (Security Technical Implementation Guide) организации DISA (Defense Information Systems Agency), CIS Benchmark организации CIS (Center for Internet Security); платформа управления безопасностью McAfee ePolicy Orchestrator; LDAP (Lightweight Directory Access Protocol); Kerberos; RSA SecurID; а также многие другие.

Продукт IBM InfoSphere Guardium разработан для защиты среды больших данных. Он использует стек компонентов Hadoop и интегрируется с платформой Hadoop на различных уровнях модели OSI (Open System Interconnection). InfoSphere Guardium может работать как в виртуальной, так и в облачной конфигурации среды, предлагая соответственно различные наборы средств для защиты среды Hadoop.

Требования к защите среды Hadoop

Риски безопасности больших данных способны нанести большой ущерб вследствие потери данных, снижения производительности, сокращения доходов и уменьшения совокупных показателей компании. Узкие места системы безопасности ограничивают производительность при работе с большими данными, а каждый компонент среды Hadoop является источником потенциальных уязвимостей безопасности. Сложность распределенных сетей требует специальных методов резервного копирования и восстановления. В распределенных сетях шлюзы осуществляют загрузку больших данных; веб-клиенты и автономные клиенты взаимодействуют с узлами и с диспетчерами приложений; а кластеры больших данных осуществляют репликацию, резервное копирование и хранение данных. Кроме того, необходимо соблюдать соответствие таким нормативным актам, как закон Закон о преемственности и подотчетности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) и закон Сарбейнса-Оксли (SOX) в США. С учетом многогранных характеристик распределенных вычислений можно утверждать, что для среды Hadoop требуются более надежная защита.

Почему именно InfoSphere Guardium

InfoSphere Guardium защищает большие данные, а также значительные инвестиции, сделанные в Hadoop-технологии, и предоставляет всеобъемлющую гарантию надлежащей защиты прочих инвестиций компании. Продукт InfoSphere Guardium восполняет дефицит безопасности платформы Hadoop; он интегрируется с этой платформой с целью беспрепятственной поддержки критически важных функций защиты. Предоставляя библиотеку политик безопасности, InfoSphere Guardium выводит развитие политик безопасности на новый уровень (поскольку традиционные подходы к созданию политик безопасности оказываются неэффективными в случае распределенных вычислений).

InfoSphere Guardium комплектуется многочисленными инструментами для мониторинга безопасности и для устранения проблем с безопасностью. С помощью входящего в его состав набора продуктов он анализирует трафик больших данных с использованием библиотеки политик безопасности и реализует стратегические мероприятия по защите от сетевых атак и от других угроз данным. Продукты InfoSphere Guardium, образующие безопасную среду Hadoop, показаны на рисунке 1 и в Таблице 1.

Рисунок 1. Семейство продуктов InfoSphere Guardium, обеспечивающих защиту среды Hadoop

Image showing the products in the InfoSphere Guardium family that secure Hadoop

Таблица 1. Семейство продуктов InfoSphere Guardium

Продукт Функции
(1) IBM InfoSphere Data Privacy for Hadoop Динамически, в реальном времени реализует соответствие нормативным требованиям по защите конфиденциальных данных
(2) IBM InfoSphere Guardium Activity Monitor В реальном времени блокирует несанкционированный доступ к данным; генерирует предупреждения и уведомления при нарушении защиты
(3) IBM InfoSphere Guardium Data Encryption и (4) InfoSphere Guardium Data Encryption for IBM DB2® and IBM IMS™ Databases Соответствующие отраслевым стандартам криптографические утилиты, обеспечивающие шифрование структурированных и неструктурированных данных
(5) IBM InfoSphere Optim™ Data Masking Маскирование конфиденциальных данных по требованию
(6) IBM InfoSphere Guardium Vulnerability Assessment Сканирование, выявление уязвимостей и выдача рекомендаций по их устранению в базе данных
(7) IBM InfoSphere Guardium Data Redaction Обнаружение конфиденциальных данных в отображаемых документах (файлы в форматах PDF, TIFF, XML; документы Microsoft® Word) и удаление этих данных в качестве меры безопасности

Кроме того, InfoSphere Guardium предоставляет функционально насыщенный интерфейс командной строки для установки, для корректировки динамических конфигураций и для получения системной информации.

Как работает InfoSphere Guardium

Поговорка гласит: "Лучше унция профилактики, чем фунт лечения". Она полностью применима к защите среды Hadoop с помощью решения InfoSphere Guardium. Создание защищенной с помощью InfoSphere Guardium среды Hadoop обеспечивает принудительное применение упреждающего мониторинга в качестве приоритетного шага для обнаружения угроз в реальном времени и реализации мер по обеспечению безопасности. InfoSphere Guardium контролирует систему на предмет любой несанкционированной или нежелательной деятельности, обеспечивая системе необходимый запас времени для смягчения, избежания, предотвращения или уменьшения последствий атаки на безопасность данных.

InfoSphere Guardium использует API-интерфейсы для оркестровки операций технического обслуживания (например, аудит транзакций) и генерации отчетов. IBM предлагает для платформы Hadoop средства поддержки веб-технологий, что позволяет ее пользователям просматривать файлы HDFS (Hadoop Distributed File System) при посредстве веб-браузера. Веб-приложения также могут быть представлены в форме автономных приложений, программный код которых поддерживает веб-браузеры, поэтому веб-функциональность приложений Hadoop и приложений IBM для обслуживания больших данных фактически удваивается. На всем протяжении от аутентификации до авторизации при обращении к кластерам больших данных характеристики больших данных необходимо оберегать наравне с целостностью среды и функциональностью кластера.

Мониторинг подсказывает действия в соответствии с политикой безопасности

Мониторинг безопасности - это непрерывный анализ транзакций с базой данных. Продукт InfoSphere Guardium осуществляет мониторинг транзакций с базой данных по всем пользователям с помощью программных датчиков (S-TAP), а также интегрируется с другими решениями и инфраструктурами IBM, отвечающими за обеспечение безопасности.

В результате продукт InfoSphere Guardium упрощает чрезвычайно сложную задачу обеспечения единообразной безопасности в масштабе всей распределенной среды Hadoop. На рисунке 2показан моментальный снимок функционирования S-TAP. В каждом кластере размещается свой датчик S-TAP, который передает копию каждой транзакции с базой данных в компонент Collector продукта InfoSphere Guardium. Collector - это аппаратно-программный комплекс (appliance) или устройство для регистрации, хранения, аудита и анализа транзакций с базой данных на предмет нарушений защиты.

Рисунок 2. Функционирование S-TAP в среде InfoSphere Guardium

Image showing S-TAP performance in InfoSphere Guardium

Генерируемые системой действия отражают деятельность компонента Policy Engine продукта InfoSphere Guardium; этот компонент предоставляет политики для обеспечения соответствия требованиям по безопасности, которые используются при идентификации нарушений защиты. Компонент Aggregatorпродукта InfoSphere Guardium - это аппаратно-программный комплекс (appliance), который консолидирует результаты анализа от нескольких компонентов типа Collector, формируя отчеты по безопасности в масштабе всего предприятия. Это обеспечивает организации заблаговременное уведомление о нарушениях защиты. InfoSphere Guardium тщательно отслеживает транзакции с базой данных, выявляя случаи несанкционированного использования, мошеннических записей, утечек данных, атак и других угроз для безопасности.

Уровни безопасности, необходимые компаниям и требуемые для платформы Hadoop

Владельцы сети передачи больших данных хотят иметь сеть, которая была бы способна в защищенном режиме быстро и динамично обрабатывать данные. Такая функциональность опирается на  параллелизм - распространение вычислений на большое количество компьютерных процессоров с целью ускорения процесса обработки данных. Согласно закону Амдала об ограничении скорости количество процессоров, которые можно эффективно использовать, ограничено определенным уровнем, а при дальнейшем увеличении их количества дополнительный прирост производительности получить невозможно. В параллельных распределенных компьютерных системах тем не менее используется огромное количество процессоров, а также физических или виртуальных узлов для выполнения параллельных вычислений. Кроме того, среды больших данных различных типов могут сосуществовать на одной виртуальной платформе или облачной платформе. Например, такие среды, как Hadoop и NoSQL, не сочетаются друг с другом, что ослабляет эффективность встроенных в них инструментов безопасности. По вышеуказанным причинам для обеспечения безопасности среды Hadoop требуется, чтобы решение InfoSphere Guardium масштабировалось до уровня больших данных.

Владельцы сетей больших данных хотели бы использовать встроенные инструменты безопасности из состава стека Hadoop для защиты всей среды Hadoop, однако среды больших данных могут иметь огромные размеры. Фактически большие данные - это синоним платформы Hadoop, которая объединяет HDFS, Apache Hadoop NextGen MapReduce (YARN), MapReduce и другие компоненты в рамках специализированного решения с открытым исходным кодом. Такие дополнительные компоненты, как Dremel, chef, Apache Hive, Puppet и Percolator, расширяют среду Hadoop и предлагают такие возможности, такие как графика, XML-данные, особый доступ к данным, управление и обработка. Использование различных технологий со встроенными средствами защиты может оказаться менее безопасным, чем реализация на основе InfoSphere Guardium, которая обеспечивает всеобъемлющее решение для обеспечения безопасности в среде Hadoop. Более того, в базовой системе Hadoop не существует никаких встроенных средств (помимо авторизации на уровне сервисов и возможностей веб-прокси, предоставляемых модулем YARN) для защиты Hadoop-хранилищ больших данных и приложений на распределенных узлах Hadoop. Для обеспечения защиты в масштабе всей среде Hadoop необходимо использовать самые надежные и проверенные решения безопасности из имеющихся в наличии, однако HDFS-прокси связывают браузерные клиенты с узлами посредством RPC-вызова "поверх" TCP/IP. Подобное поведение вполне адекватно для выполнения транзакций с базой данных, однако такие транзакции будут менее безопасными, чем при использовании соединения типа TCP/IP - TCP/IP. Продукт InfoSphere Guardium способен добавить необходимую безопасность, обеспечиваемую соединением типа TCP/IP - TCP/IP, поскольку он поддерживает реальную двунаправленную инициализацию безопасности для такой конфигурации прокси, обеспечивая защиту данных, передаваемых от HDFS-прокси, и данных, передаваемых в узел (см. рис. 3).

Рисунок 3. Защищенная архитектура Hadoop

Image showing a secure Hadoop architecture

Кроме того, владельцы сетей больших данных хотели бы иметь возможность защищенного доступа к большим данным для различных типов пользователей. Чтобы обеспечить этот уровень защиты, транзакции с базой данных подвергаются мониторингу на предмет соответствия авторизационным параметрам безопасности вплоть до уровня ролей пользователей. Роли и пароли пользователей являются основными формами защиты больших данных, однако отношения в базе данных также могут быть распределенными. В сложном переплетении схем модель базы данных предлагает лишь ограниченный доступ и не обеспечивает защиту от доступа со стороны пользователя и системы. Иная ситуация имеет место при использовании продукта InfoSphere Guardium, который предлагает новаторскую защиту с детализированными уровнями, что позволяет администраторам защищать большие данные на уровне распределенного узла, на уровне поля и даже на уровне ролей пользователей.

Нарушения защиты могут оказаться весьма дорогостоящими

Чтобы лучше понять пользу, которое обеспечивает применение продукта InfoSphere Guardium, необходимо рассмотреть потенциальный ущерб, который способны нанести даже небольшие или косвенные нарушения защиты.

К рискам безопасности больших данных относятся: возможные случайные атаки на систему безопасности; утечки данных; неэффективные политики безопасности; а также мошеннические узлы, пользователи или приложения, получающие доступ к кластеру. Среда Hadoop даже при принятии надлежащих мер в области безопасности может столкнуться с компрометацией данных, что, в свою очередь, может привести к передаче злонамеренных данных или ссылок на злонамеренный сервис. Кроме того, некоторые узлы являются самоорганизующимися, поэтому им требуется "дросселирование", недоступное в одноранговом сетевом кластере. Как результат, эти узлы не могут пользоваться шлюзами, брандмауэрами или инструментами мониторинга безопасности. В стеки обработки больших данных не встроено почти никаких средств безопасности, поскольку они базируются на модели веб-сервисов и на рейтинге Top Ten list (первая десятка самых опасных уязвимостей) от сообщества OWASP (Open Web Application Security Project).

Еще одна область безопасности - доступ к административным данным. Как минимум один администратор занимается администрированием узлов. Полный доступ к узлу требует ограничений, которые гарантировали бы возможность разделения обязанностей между разными администраторами. Аналогичным образом платформы реляционных баз данных требуют ограничений, обеспечивающих безопасность. Платформам больших данных не хватает встроенных средств, документации и сторонних инструментов для удовлетворения этой потребности.

Выявление факта утечки в кластере для работы с большими данными - это скрытая потребность, для удовлетворения которой требуется упреждающий и рациональный подход. Практичным решением в этом случае является постоянный мониторинг журналов транзакций. Реализуйте журналирование в существующем кластере, используйте общие веб-функции для управления журнальными файлами или установите SIEM либо какой-либо другой продукт для управления журналами. Журналирование способствует укреплению безопасности благодаря возможностям для выявления атак, для диагностирования отказов, для исследования необычного поведения посредством прослеживания событий до первопричин. К примеру, в качестве событий в журнале можно регистрировать запросы MapReduce. Hadoop предлагает лишь частичные решения, основанные только на авторизации.

Криптографическая защита с помощью InfoSphere Guardium

Дополнительный довод в пользу применения продукта InfoSphere Guardium для создания защищенной среды Hadoop - он вполне позволяет обеспечить такую степень горизонтальной масштабируемости и прозрачности, которая необходима для работы с большими данными. Функция Data Encryption обеспечивает шифрование/дешифрование без вмешательства в работу среды Hadoop. Централизованные сервисы InfoSphere Guardium для управления политиками и ключами улучшают защиту неструктурированных и структурированных данных, поскольку пользователям, пытающимся получить доступ к зашифрованным файлам, требуется для этого наличие обязательного ключа шифрования или сертификата. Проверка спецификаций на соответствие политикам и применение программно-аппаратных комплексов (appliance) - это обязательные элементы для сред Семантической паутины (Semantic Web) и для защиты от свойственных им нарушений безопасности и конфиденциальности.

Рекомендованной отраслевой методикой для защиты находящихся в состоянии покоя данных является шифрование, которое защищает от попыток обращения к данным в обход установленных прикладных интерфейсов. Шифрование обеспечивает защиту больших данных в процессе их репликации, передачи и перемещения между кластерами. Необходимо также помнить, что репликация предоставляет злонамеренным администраторам возможность похитить большие данные или нанести ущерб иным образом. Кроме того, лишь немногие NoSQL-решения обеспечивают шифрование данных в состоянии покоя.

Функция Data Encryption продукта InfoSphere Guardium защищает данные от злонамеренных пользователей или администраторов, которые имеют доступ к узлам данных и непосредственно инспектируют файлы; она придает украденным файлам или скопированным образам дисков "нечитабельный" вид. Шифрование файлов блокирует атаки, которые в ином случае смогли бы обойти средства защиты приложений. Продукт InfoSphere Guardium поддерживает шифрование на уровне файлов, что обеспечивает единообразную защиту для разных платформ. Эта опция прозрачна для Hadoop и для вызывающих приложений. Кроме того, она масштабируется до уровня больших данных по мере роста кластера. Фактически большая часть защиты, которая требуется для среды Hadoop, может быть реализована посредством средств управления шифрованием. Однако ключи шифрования должны быть защищены на 2 уровне модели OSI, чтобы обеспечить эффективную криптографическую защиту для кластеров больших данных. Кроме того, несмотря на удобство хранения ключей шифрования на локальных дисковых накопителях, ключи шифрования и сертификаты следует распределить, чтобы обеспечить надлежащую защиту каждому пользователю, каждой группе и каждому приложению. Такие операции могут потребовать API-интерфейсов, которые должны быть достаточно безопасными, чтобы выполнять команды программного кода для манипулирования большими данными без их компрометации. Продукт Guardium InfoSphere предоставляет все функции защиты, которые требуются среде Hadoop, и даже больше.

Заключение

Нужная степень безопасности среды Hadoop может быть достигнута посредством применения надлежащего набора инструментов безопасности от IBM. Во многих случаях большие данные должны соответствовать определенным нормативам, согласно требованиям законодательства. Создание безопасной среды Hadoop с помощью средств IBM для защиты данных и инфраструктуры позволяет держать на расстоянии потенциальных злоумышленников, а также прикрыть слабые места и уязвимости приложений для работы с большими данными.

При реализации защиты среды для работы с большими данными необходимо помнить про следующие ключевые моменты.

  • Наилучшее решение для защиты Hadoop масштабируется вместе со средой больших данных.
  • Следует использовать сторонние инструменты безопасности, встраивающиеся в инфраструктуру Hadoop.
  • Спецификации политик позволяют более детально задавать требования к защите.
  • Средства управления безопасностью с архитектурной точки зрения и с точки зрения среды должны согласовываться с кластерной архитектурой.

Среды Hadoop сталкиваются с типичными задачами по обеспечению безопасности и конфиденциальности больших данных. Чтобы защитить большие данные, нужно фактически создать безопасную среду Hadoop. IBM предоставляет мощный набор механизмов безопасности в рамках лучшего в отрасли типового решения для защиты среды Hadoop.


Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/home.asp?artId=36919