Курс "Hadoop для инженеров данных"Код: EDU-BD-HDDE
Продолжительность - 5 дней Производится набор группы
Курс «Hadoop для инженеров данных» представляет собой пятидневный практический тренинг по batch/streaming обработке потоков данных средствами Apache Airflow, Spark, Flume, Kafka, Sqoop, Hive для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT. Data Lake (озеро данных) — это метод хранения данных в натуральном (сыром, «RAW») виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач. Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию. За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на Курсе «Hadoop для инженеров данных». Аудитория: Специалисты по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real—time процессинга больших данных с использованием компонентов экосистемы Хадуп. Необходимый уровень подготовки:
Соотношение теории к практике 40/60 Курс «Hadoop для инженеров данных» включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр. для последующего анализа больших данных. На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud ( замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka. Программа курса «Hadoop для инженеров данных»
Список практических занятий:
Программа читается совместно с Школа Больших Данных. В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения. В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных. Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации. В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных. Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас! В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
|