Курс "20773 Анализ больших данных (Big Data) с помощью Microsoft R (20773 Analyzing Big Data with Microsoft R)"
Код: 20773
Специализация: Microsoft SQL Server 2016
Продолжительность - 3 дня
Производится набор группы
Курс «20773 Анализ больших данных (Big Data) с помощью MicrosoftR» ориентирован на специалистов, анализирующих огромные наборы данных, а также разработчиков, использующих R в своих проектах.
На курсе слушатели получат знания и навыки, необходимые для создания и запуска сценариев анализа больших данных на сервере Microsoft R. Также в курсе описано как работать с Microsoft R в средах обработки больших данных как Hadoop, кластер Spark или база SQL Server.
Прослушав данный курс, Вы научитесь:
- описывать работу Microsoft R;
- использовать клиента R и Server R для обработки больших данных из разных хранилищ;
- визуализировать данные с помощью графиков и схем;
- преобразовывать и очищать наборы больших данных;
- использовать способы разделения аналитических задач на параллельные задачи;
- строить и оценивать регрессионные модели, генерируемые на основе больших данных;
- создавать, оценивать и разворачивать партиционированные модели на основе больших данных;
- использовать язык R в средах SQL Server и Hadoop.
После изучения данного курса рекомендуем прослушать курс:
Программа курса
Модуль 1. Сервер и клиент Microsoft R
- Обзор сервера Microsoft R
- Использование клиента Microsoft R
- Функции ScaleR
- Лабораторная работа: Обзор сервера и клиента Microsoft R
Модуль 2. Обзор больших данных
- Источники данных ScaleR
- Чтение данных в XDF-объекте
- Обобщение данных в XDF-объекте
- Лабораторная работа: Обзор больших данных
Модуль 3. Визуализация больших данных
- Визуализация данных в памяти
- Визуализации больших данных
- Лабораторная работа: Визуализация данных
Модуль 4. Обработка больших данных
- Преобразование больших данных
- Управление наборами данных
- Лабораторная работа: Обработка больших данных
Модуль 5. Распараллеливание операций анализа
- Использование вычислительного контекста RxLocalParallel с функцией rxExec
- Использование пакета revoPemaR
- Лабораторная работа: Использование rxExec и revoPemaR для распараллеливания операций
Модуль 6. Создание и оценка регрессионной модели
- Кластеризации больших данных
- Создание регрессионных моделей и подготовка прогнозов
- Лабораторная работа: Создание линейной регрессионной модели
Модуль 7. Создание и оценка партиционированных моделей (Partitioning Model)
- Создание партиционированных моделей на основе дерева решений.
- Тестирование прогнозов партиционированных моделей
- Лабораторная работа: Создание и оценка партиционированных моделей
Модуль 8. Обработка больших данных в SQL Server и Hadoop
- Использование R в SQL Server
- Использование Map/Reduce в Hadoop
- Использование Hadoop Spark
- Лабораторная работа: Обработка больших данных в SQL Server и Hadoop
В конце обучения на курсе проводится итоговая аттестация в виде теста или на основании оценок за практические работы, выполненных в процессе обучения
Microsoft SQL Server 2016 — мощная и безопасная система управления базами данных, готовая к работе в самых важных и бизнес-приложениях, высокого уровня, позволяющая сокращать финансовые затраты на сервис систем и производство новых приложений.
SQL Server 2016 обеспечивает рекордную производительность благодаря новым технологиям работы с памятью, что поможет заказчикам ускорить свой бизнес и реализовать новые сценарии работы.
Кроме того, SQL Server 2016 позволяет использовать новые гибридные облачные решения. Это позволит воспользоваться новыми преимуществами облачных вычислений. Например в таких сценариях как резервное копирование в облако и аварийное восстановление локально установленного SQL Server.
SQL Server 2016 предлагает лучшие возможности в отрасли бизнес-аналитики благодаря интеграции с такими привычными инструментами, как Excel и Power BI для Office 365.
Основные нововведения включают:
- Поддержка in-memory OLTP (Hekaton). SQL Server 2016 обладает возможностью размещения таблиц и хранимых процедур в оперативной памяти, что позволит добиться существенного выигрыша в производительности транзакционных приложений.
- Обновляемые колоночные индексы. Колоночные индексы используются, в основном, в аналитических приложениях. Они позволяют значительно ускорить выполнение запросов по схемам данных, характерных для OLAP (звезда, снежинка). В версии 2016 это ограничение снято, и колоночные индексы получат возможность обновляться при внесении изменений в данные, как традиционные индексы.
- Новый тип управляемого ресурса в Resource Governor. Регулятор ресурсов используется для разделения вычислительных мощностей компьютера между различными приложениями, обращающимися к SQL Server, что дает возможность приоритезировать нагрузку, а также гарантирует, что приложение не выйдет за пределы назначенных ему ресурсов, забирая на себя все, что выделено серверу баз данных. Это позволяет обеспечить предсказуемую работоспособность. В предыдущих версиях к ресурсам относились память и процессорное время, ввод-вывод.
- Улучшенная отказоустойчивость. Группа высокой доступности AlwaysOn теперь включает 8 вторичных реплик (против 4-х в предыдущей версии).
- Интеграция с Облаком. Возможность размещать в Windows Azure файлы БД большого размера для on-premise SQL Server, а также выполнять в Windows Azure резервное копирование, в том числе с новыми возможностями шифрования.
|