Код: INTR Специализация: Авторские курсы: СУБД и хранилища данных
Продолжительность - 3 дня
Производится набор группы
Стоимость:
72 000 руб.
Курс «Основы Hadoop» - это 3-дня практического обучения по установке и первоначальной настройке кластера Apache Hadoop — основы Big Data для начинающих и специалистов. Практическое обучение Хадуп для системных администраторов, архитекторов и разработчиков Big Data.
Курс «Основы Hadoop» представляет сокращенную версию Курса «Администрирование кластера Hadoop» и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Arenadata Hadoop Community Edition или Apache Hadoop.
Apache Hadoop — это основная технология хранения и обработки больших данных (Big Data), свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ на кластерах из сотен и тысяч узлов. Сегодня вокруг Apache Hadoop существует целая экосистема связанных проектов и технологий, которые используются для интеллектуального анализа больших данных (Data Mining), в том числе с помощью машинного обучения (Machine Learning).
На практике Apache Hadoop используется во множестве компаний по всему миру для:
хранения множества информации в различных форматах;
сортировка огромных объемов данных и разбор содержимого чрезвычайно больших файлов;
аналитики поисковых запросов и пользовательских логов в высоконагруженных веб-сайтах и корпоративных информационных системах;
быстрая обработка графических данных.
Аудитория:
Курс «Основы Hadoop» ориентирован на начинающих и опытных ИТ-специалистов в области больших данных, которые хотят получить теоретические знания и прикладные навыки по установке, настройке и использованию кластера Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud для ознакомления). Практическое обучение на Курсе «Основы Hadoop» позволит системному администратору, архитектору и разработчику Big Data освоить следующие умения:
базовые установка и настройка кластера Hadoop в облаке
основные операции с файловой системой HDFS
запуск задач и управление ресурсами MapReduce и YARN
взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, Sqoop, HBase, Zeppelin.
Предварительный необходимый уровень подготовки:
Базовый опыт работы в Linux (обязательно)
Опыт работы с любым текстовым редактором vi, nano
Соотношение теории к практике 50/50
Практический Курс «Основы Hadoop» содержит базовые сведения по установке, настройке и эксплуатации кластера Arenadata Hadoop версии 3, включает теоретический минимум, необходимый для эффективной практической работы с кластером Arenadata Hadoop.
На курсе рассматриваются следующие темы:
выполнение основных операций в файловой системе HDFS;
запуск задач MapReduce;
основы управления ресурсами Hadoop с помощью планировщика задач YARN;
концепции использования Hadoop и компонентов экосистемы Hadoop (MapReduce, Apache Hive, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.
Курс «Основы Hadoop» построен на сквозных практических примерах с тренировочными наборами данных для запуска пакетных (batch) и потоковых (streaming) задач в Hadoop кластере. Для каждого слушателя предоставляются индивидуальные кластера в облачной инфраструктуре Amazon Web Services (AWS), чтобы вы освоили все концепции и понятия на практике. Какой именно дистрибутив Хадуп выбрать, решаете вы: Arenadata Hadoop или Cloudera Data Platform (ознакомительно). Также на наших курсах обучения основам Hadoop вы познакомитесь с программным обеспечением по управлению кластером Arenadata Cluster Manager (Cloudera Manager опционально).
Примечание: с 1 июля 2022 года данный курс проводится по дистрибутиву Hadoop версии 3 Arenadata Hadoop Community Edition.
Внимание!
Данный курс проводится для сформированных групп от 6 человек.
Программа курса «Основы Hadoop»
Основы Hadoop и Big Data
Что такое Big Data. Понимание проблемы Big Data
Эволюция систем распределенных вычислений Hadoop
Концепция Data Lake и pipelines
Схемы организации Data Lakes с использованием кластеров Hadoop, NoSQL и платформ потоковой обработки данных
Архитектура Apache Hadoop
Hadoop сервисы и основные компоненты. Name node. DataNode.
YARN сервис-планировщик
Демоны HDFS
Отказоустойчивость и высокая доступность
Hadoop Distributed File System
Архитектура HDFS. Блоки HDFS
Основные команды работы с HDFS
Операции чтения и записи, назначения HDFS
Дисковые квоты. Поддержка компрессии
Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
Импорт (загрузка) данных на HDFS
MapReduce
Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3.
Ограничения и параметры MapReduce и YARN
Управление запуском пользовательских задач (jobs) под MapReduce.
Дизайн кластера Hadoop
Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Data Platform, Apache Hadoop): различия и ограничения
Требования программного и аппаратного обеспечения
Планирование кластера
Масштабирование кластера Hadoop.
Интеграция с другими решениями: streaming (DataFlow), NoSQL
Установка кластера Arenadata Hadoop
Оптимизация OS для узлов кластера
Установка Hadoop кластера с использованием ADCM ( Arenadata Cluster Manager)
Выбор начальной конфигурации
Начальная конфигурация HDFS и MapReduce
Файлы логов и конфигурации
Установка Hadoop клиентов
Установка Hadoop кластера в облаке
Операции обслуживания кластера Hadoop
Дисковая подсистема
Квоты
Остановка, запуск, перезапуск (Graceful Shutdown)
Управление узлами
Управление обновлениями и создание локального репозитория
Оптимизация и управление ресурсами
Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
Планировщики: FIFO Scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF
Управление кластером Arenadata Hadoop с использованием ADCM
Основные операции и задачи ADCM
Мониторинг кластера.
Диагностика и разрешение проблем с ADCM
Инструментарий Apache Hadoop экосистемы
Графический интерфейс сервиса HUE/Zeppelin
Основы Apache Zookeeper
Введение в Hadoop SQL: Apache Hive, понятие Hive таблицы, установка Hive
Использование Apache Sqoop — установка и выполнение базовых операций
Обзор и назначение компонент: Apache Spark, Apache Solr, Apache HBase, Apache Phoenix, Apache Flink, Apache Airflow
Примерный список практических занятий по курсу «Основы Hadoop»:
Установка кластера и настройка Arenadata Cluster Manager (ADCM)
Настройка оффлайн репозитория для установки кластера Arenadata Hadoop и RHEL/Centos
Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Arenadata Cluster Manager (ADCM) в облаке Amazon Web Services с использованием ADCM
Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
Управление ресурсами и запуском задач с использованием YARN и MapReduce
Знакомство с SQL интерфейсом доступа Apache Hive
Выполнение базовых операций импорта/экспорта с применением Apache sqoop
Применение веб-интерфейса HUE/Zeppelin (опционально)
Примечание: • Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 • Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей
Программа читается совместно с Школа Больших Данных.
В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения
В современном мире сложно обойтись без информационных технологий и их производных - компьютеров, мобильных телефонов, интернета и т.д., особенно в крупных компаниях и государственных организациях, работающих с большим количеством людей, а не только с парой VIP-клиентов, как это может быть в случае небольшой компании. А там, где есть большое количество контрагентов, заявителей и т.д. - не обойтись без баз данных, необходимых для обработки информации. Естественно, что времена гроссбухов и карточек, памятных многим по библиотекам, давно прошли, сегодня используются персональные компьютеры и электронные базы данных.
Сегодня невозможно представить работу крупнейших компаний, банков или государственных организаций без использования баз данных и средств Business Intelligence. Базы данных позволяют нам хранить и получать доступ к большим объемам информации, а система управления базами данных (СУБД) — осуществлять менеджмент доступных хранилищ информации.
В Учебном центре « Интерфейс» Вы научитесь эффективно использовать системы управления базами данных: быстро находить нужную информацию, ориентироваться в схеме базы данных, создавать запросы, осуществлять разработку и создание баз данных.
Обучение позволит Вам не только получить знания и навыки, но и подтвердить их, сдав соответствующие экзамены на статус сертифицированного специалиста . Опытные специалисты по СУБД Microsoft SQL Server или Oracle могут быть заинтересованы в изучении систем бизнес-аналитики. Это задачи достаточно сложные, использующие громоздкий математический аппарат, но они позволяют не только анализировать происходящие процессы, но и делать прогнозы на будущее, что востребовано крупными компаниями. Именно поэтому специалисты по бизнес-аналитике востребованы на рынке, а уровень оплаты их труда весьма и весьма достойный, хотя и квалифицированным специалистам по базам данных, администраторам и разработчикам, жаловаться на низкий уровень дохода тоже не приходится. Приходите к нам на курсы и получайте востребованную и высокооплачиваемую профессию. Мы ждем Вас!
В конце обучения на курсах проводится итоговая аттестация в виде теста или путём выставления оценки преподавателем за весь курс обучения на основании оценок, полученных обучающимся при проверке усвоения изучаемого материала на основании оценок за практические работы, выполненные в процессе обучения.
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
Нужна помощь в поиске курса? Наша цель заключается в обеспечении подготовки специалистов, когда и где им это необходимо. Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса. Если вам нужен курс, который вы не видите на графике или у нас на сайте, или если Вы хотите пройти курс в другое время и в другом месте, пожалуйста, сообщите нам, по адресу mail@interface.ru или shopadmin@itshop.ru
Поговорите со своим личным тренинг-менеджером! Мы предоставляет Вам индивидуальное обслуживание. Если у вас есть потребность обсудить, все вопросы касательно обучения, свяжитесь, пожалуйста c нами по телефонам: +7 (495) 925-0049, + 7 (495) 229-0436. Или любым другим удобным для Вас средствами связи, которые Вы можете найти на сайтах www.interface.ru или www.itshop.ru
Подтвердить полученные знания можно, сдав сертификационные экзамены. Учебный центр "Интерфейс" является авторизованным центром тестирования Pearson VUE
Учебный центр "Интерфейс" оказывает консалтинговые услуги по построению моделей бизнес-процессов, проектированию информационных систем, разработке структуры баз данных и т.д.
Возможна корректировка программ курсов по желанию заказчиков! Мы расскажем Вам о том, что интересует именно Вас, а не только о том, что жестко зафиксировано в программе курса.
Где Вам удобнее учиться? В Москве? Санкт-Петербурге? Подмосковье? В вашем собственном офисе? Позвоните нам по тел.:+7 (495) 925-0049 и мы обсудим удобный для Вас вариант обучения.