Код: EDU-BD-HADM Специализация: Авторские курсы: СУБД и хранилища данных
Продолжительность - 5 дней
Производится набор группы
Стоимость:
120 000 руб.
Курс «Администрирование кластера Hadoop» представляет собой5 дней практического обучения работе с кластером Hadoop: установка и настройка, обеспечение безопасности (Kerberos, Apache Ranger — ознакомительно), мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.
Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию и практические задания по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов ArenadataHadoop версии 3. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA) на базе Hadoop.
Курс «Администрирование кластера Hadoop» построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services/Yandex с использованием Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud) или Apache Hadoop , а также программного обеспечения управления кластером Arenadata Cluster Manager ADCM (Cloudera Manager)
Примечание: с 1 июля 2022 года данный курс проводится по дистрибутиву Hadoop версии 3 Arenadata Hadoop Community Edition.
Аудитория: для системных администраторов, архитекторов, DevOps-инженеров и разработчиков Big Data, которые хотят освоить прикладные навыки установки, конфигурирования, обслуживания, управления и администрирования кластера Hadoop на базе дистрибутивов Arenadata Hadoop и Arenadata Cluster Manager (ADCM).
Предварительный уровень подготовки:
Знание базовых команд и опыт работы в Linux (обязательно)
Опыт работы с любым текстовым редактором vi, nano
Соотношение теории к практике 40/60
Внимание!
Данный курс проводится для сформированных групп от 6 человек.
Программа курса «Администрирование кластера Hadoop»
Введение в Big Data
Что такое BigData. Понимание проблемы Big Data
Эволюция систем распределенных вычислений Hadoop
Принципы формирования Data Lake и pipelines
Схемы организации Data Lakes с использованием кластеров Hadoop, NoSQL и платформ потоковой обработки данных
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты. Name node. DataNode.
YARN сервис-планировщик
Демоны HDFS
Отказоустойчивость и высокая доступность
Hadoop Distributed File System
Архитектура HDFS. Блоки HDFS.
Основные команды работы с HDFS.
Операции чтения и записи, назначения HDFS.
Дисковые квоты. Поддержка компрессии
Основные форматы хранения данных TXT, XML, JSON, AVRO, ORC, Parquet, Sequence файлы
Импорт (загрузка) данных на HDFS
Организация Tiering для хранения данных
Архивное хранение HDFS
Локальное чтение и распределенное кэширование
Map Reduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce 3
Ограничения и параметры MapReduce и YARN
Управление запуском пользовательских задач (jobs) под MapReduce
Дизайн кластера Hadoop
Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Distributed Hadoop CDP, Apache Hadoop): различия и ограничения
Требования программного и аппаратного обеспечения
Планирование кластера
Масштабирование кластера Hadoop.
Сравнение Cloud решений для Hadoop. Amazon EMR/ Yandex Cloud
Миграция данных и репликация данных
Установка кластера Arenadata Hadoop
Оптимизация OS для узлов кластера
Установка Hadoop-кластера с использованием ADCM
Выбор начальной конфигурации
Начальная конфигурация HDFS и MapReduce
Файлы логов и конфигураций
Установка Hadoop клиентов
Установка Hadoop кластера в облаке
Автоматические варианты установки
Установка и настройка кластера Hadoop в изолированном окружении (offline).
Операции обслуживания кластера Hadoop
Дисковая подсистема
Квоты
Остановка, запуск, перезапуск (Graceful Shutdown)
Управление узлами
Управление обновлениями и создание локального репозитория
Оптимизация и управление ресурсами
Поиск узких мест
Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
Особенности управления ресурсами для разных дистрибутивов
Управление кластером Hadoop с использованием Arenadata Cluster Manager (Cloudera Manager)
Основные операции и задачи c использованием ADCM (ClouderaManager)
Мониторинг кластера. Работа с логами и сервисами
Диагностика и разрешение проблем с ADCM
Обзор Apache Zookeeper
Безопасность Apache Hadoop
Безопасность по умолчанию
Многопользовательский режим
Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
Резервное копирование и аварийное восстановление
Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
Best practices Cloudera/ Arenadata
Troubleshooting
Data Node
Name Node
Восстановление Name Node
Инструментарий Apache Hadoop экосистемы
Графический интерфейс сервиса HUE/Zeppelin
Основы Apache Zookeeper
Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
Использование ApacheSqoop — установка и выполнение базовых операций
Обзор и назначение компонент: Apache Spark, Apache Solr, Apache HBase, Apache Phoenix, Apache Airflow, Apache Flink
Примерный список практических занятий:
Установка кластера и настройка Arenadata Cluster Manager (ADCM)
Настройка оффлайн репозитория для установки кластера Arenadata Hadoop и RHEL/Centos
Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Arenadata Cluster Manager (ADCM) в облаке Amazon Web Services с использованием ADCM
Базовые операции с кластером Hadoop и файловые операции HDFS.
Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez.
Управление кластером с использованием Arenadata Cluster Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
Настройка кластера мониторинга
Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Arenadata Cluster Manager (опционально, по возможности)
Установка и выполнение базовых операций в Apache Hive, Apache Sqoop
Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
HA высокая доступность (High Availablility) NameNode ( опционально) и YARN (ресурс-менеджер) .
Примечание: Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30. Практические занятия с меткой (опционально) выполняются по желанию и при наличии технической возможности и свободного времени у слушателей
Программа читается совместно с Школа Больших Данных.
В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.
В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.
Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.
В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.
Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!
В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
Нужна помощь в поиске курса? Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
Поговорите со своим личным тренинг-менеджером! Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru
Подтвердить полученные знания можно, сдав сертификационные экзамены. Учебный центр "Интерфейс" является авторизованным центром тестирования Pearson VUE
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса.
Где Вам удобнее учиться? В Москве? Санкт-Петербурге? Подмосковье? В вашем собственном офисе? Позвоните нам по тел.:+7 (495) 925-0049 и мы обсудим удобный для Вас вариант обучения.