Курс "Hadoop для инженеров данных"
Код: EDU-BD-HDDE
Специализация: Авторские курсы: СУБД и хранилища данных
Продолжительность - 5 дней
Расписание: |
5 июня 2023 года (Москва) |
|
 |
|
 |
Курс "Hadoop для инженеров данных" направлен на формирование практических и теоретических навыков планирования, формирования и сопровождения Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания «pipelines» — традиционных источников поступления данных (корпоративные базы данных, web-логи, файловые системы, интернет данные, транзакции) для последующего анализа больших данных. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop и HortonWorks Data Platform.
Соотношение теории к практике 40/60
Примечание: с 1 января 2019 года данный курс проводится в объединенном формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).
Аудитория:
Специалисты по работе с большими данными, ответственные за настройку и сопровождение ввода данных в DataLake, а также желающие получить теоретические знания и практические навыки по подготовке больших данных, специфики использования процессов ETL в кластерах Hadoop, и организации Batch, streamи real-time процессинга больших данных с использованием компонентов экосистемы Hadoop.
Необходимый уровень подготовки:
- Начальный опыт работы в Unix
- Начальный опыт работы с SQL
Программа курса
- Основные концепции Hadoop и Data Lake
- Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop.
- Организация хранения данных в Hadoop Data Lake
- Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS.
- Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределенных данных с использованием Apache Spark, YARN и MapReduce v2/v3.
- Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler.
- Инструменты управления кластером
- Выполнение базовых операций с Cloudera Manager.
- Создание и управление запросами и данными с использованием сервиса Hue/Zeppelin.
- Хранение данных в HDFS
- Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, ORC, Parquet.
- Организация и оптимизация Data Layout хранения данных в HDFS
- Импорт/экспорт данных в кластер Hadoop – формирование Data Lake
- Импорт и обработка данных в кластере Hadoop
- Интеграция с реляционными базами данных
- Структура хранения данных в таблицах
- Сравнительная характеристика решений Hadoop SQL
- Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкрементальный импорт
- Введение в Apache Spark
- Архитектура и состав Apache Spark
- Основные абстракции (Dataframe, RDD)
- Spark SQL
- Ввод и вывод данных в Apache Spark
- Spark Streaming.
- Обработка слабо структурированных данных.
- Apache Hive
- Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности
- Hive LLAP, Hive on Tez
- Cloudera Impala (опционально)
- Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive
- Оптимизация Impala запросов
- Потоковые данные в Data Lake
- Event Processing System. Импорт потоковых данных в кластер
- Использование Kafka для работы с потоковыми данными
- Использование Flume для работы с потоковыми данными (опционально только для версии 2)
- Интеграция Flume + Kafka
- Процессинг данных с использование Apache NiFi
- Оркестрация данных с Apache Airflow
Cписок практических занятий:
В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.
Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.
В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.
Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!
В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
- Нужна помощь в поиске курса?
Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
- Поговорите со своим личным тренинг-менеджером!
Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru
|