Курс "Hadoop для инженеров данных"

Код: EDU-BD-HDDE
Специализация: Авторские курсы: СУБД и хранилища данных

Продолжительность - 5 дней

Расписание:
5 июня 2023 года (Москва)        

Стоимость:  110 000 руб.  

Курс "Hadoop для инженеров данных" направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.

Соотношение теории к практике 40/60


Примечание: с 1 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Аудитория:

Специалисты по работе с большими данными, ответственные за настройку и сопровождение ввода данных в DataLake, а также желающие получить теоретические знания и практические навыки по подготовке больших данных, специфики использования процессов ETL в кластерах Hadoop, и организации Batch, streamи real-time процессинга больших данных с использованием компонентов экосистемы Hadoop.

Необходимый уровень подготовки:

    • Начальный опыт работы в Unix
    • Начальный опыт работы с SQL

Программа курса

    1. Основные концепции Hadoop и Data Lake
      • Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
      • Организация хранения данных в Hadoop Data Lake
      • Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
      • Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
      • Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
    2. Инструменты управления кластером
      • Выполнение базовых операций с Cloudera Manager.
      • Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.
    3. Хранение данных в HDFS
      • Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
      • Организация и оптимизация Data Layout хранения данных в HDFS
    4. Импорт/экспорт данных в кластер Hadoop – формирование Data Lake
      • Импорт и обработка данных в кластере Hadoop
      • Интеграция с реляционными базами данных
      • Структура хранения данных в таблицах
      • Сравнительная характеристика решений Hadoop SQL
      • Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
    5. Введение в Apache Spark
      • Архитектура и состав Apache Spark
      • Основные абстракции (Dataframe, RDD)
      • Spark SQL
      • Ввод и вывод данных в Apache Spark
      • Spark Streaming.
      • Обработка слабо структурированных данных.
    6. Apache Hive
      • Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
      • Hive LLAP, Hive on Tez
    7. Cloudera Impala (опционально)
      • Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
      • Оптимизация Impala запросов
    8. Потоковые данные в Data Lake
      • Event Processing System. Импорт потоковых данных в кластер
      • Использование Kafka для работы с потоковыми данными
      • Использование Flume для работы с потоковыми данными (опционально только для версии 2)
      • Интеграция Flume + Kafka
      • Процессинг данных с использование Apache NiFi
      • Оркестрация данных с Apache Airflow

Cписок практических занятий:

  • Автоматическая установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager и поддержка базовых операций с кластером Hadoop и HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce.
  • Использование Apache Pig для подготовки данных, операции JOIN
  • Использование Apache Hive для анализа данных
  • Оптимизация запросов JOIN в Apache Hive
  • Настройка partition и bucket в Apache Hive
  • Инкрементальный импорт/экспорт данных с помощью Apache sqoop
  • SQL аналитика данных с помощью Cloudera Impala
  • Batch процессинг данных с использованием Apache Spark
  • Импорт данных с помощью Apache Flume
  • Построение Event Processing System с использованием Apache Flume и Kafka
  • Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса B

    В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения.


В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.

Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.

В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.

Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!

В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.

Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.

  • Нужна помощь в поиске курса?
    Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
  • Поговорите со своим личным тренинг-менеджером!
    Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru

Страница сайта http://test.interface.ru
Оригинал находится по адресу http://test.interface.ru/iservices/training.asp?iId=397821