Курс 20775А: Обработка Данных с Microsoft HDInsight [2020]
Специалист
Федор Самородов
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс читается на русском языке!
Спойлер: Вы научитесь
1. Описывать Hadoop, MapReduce, HDInsight;
2. Описывать типы кластеров HDInsight;
3. Описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
4. Описывать, как разрешать доступ пользователей к объектам;
5. Описывать конфигурации и архитектуру хранилища HDInsight;
6. Проводить мониторинг ресурсов с Operations management suite;
7. Выполнять запросы с Hive и Pig;
8. Описывать использование ETL и Spark;
9. Внедрять интерактивные запросы;
10. Выполнять интерактивную обработку данных с помощью Apache Phoenix;
11. Управлять задачами потоковой аналитики;
12. Создавать приложения для обработки структурированных потоков в Spark;
13. Использовать потоковые данные в Storm;
14. Объяснять, как работает язык R;
15. Преобразовывать и очищать наборы данных.
Спойлер: Содержание
Модуль 1. Начало работы с HDInsight
Большие данные
Hadoop
MapReduce
HDInsight
Лабораторная работа: Запросы к большим данным
Запросы к данным с Hive
Запросы к данным с Excel
Модуль 2. Развертывание кластеров HDInsight
Типы кластеров HDInsight
Управление кластерами HDInsight
Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
Создание кластера Hadoop в HDInsight
Настройка HDInsight с помощью скрипта
Настройка HDInsight с помощью Bootstrap
Удаление кластера HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
Недоменные кластеры
Настройка кластера HDInsight, подключенного к домену
Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
Настройка кластера HDInsight, подключенного к домену
Настроить политики Hive
Модуль 4. Загрузка данных в HDInsight
Хранилище HDInsigh
Средства загрузки данных
Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
Загрузка данных с помощью Sqoop
Загрузка данных с помощью AZcopy
Загрузка данных с помощью ADLcopy
Использование HDInsight для сжатия данных
Модуль 5. Поиск и устранение неисправностей в HDInsight
Анализ журналов
Журналы YARN
Дампы кучи (Heap)
Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
Анализ журналов HDInsight
Анализ журналов YARN
Мониторинг ресурсов с Operations management suite
Модуль 6. Внедрение пакетных решений
Хранилище Apache Hive
Запросы с Hive и Pig
Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
Загрузка данных в таблицу Hive
Запрос данных в Hive и Pig
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
Что такое Spark?
ETL и Spark
Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
Создание кластера HDInsight с доступом к хранилищу Data Lake
Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8. Анализ данных со Spark SQL
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
Внедрение интерактивных запросов для больших данных с помощью Hive
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix
Внедрение интерактивных запросов для больших данных с помощью Hive
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10. Потоковая аналитика
Потоковая аналитика
Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики
Модуль 11. Spark Streaming и DStream API
Обзор когнитивных служб
DStream
Создание приложений для обработки структурированных потоков в Spark
Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
Создание приложения Spark Streaming с помощью DStream API
Создание приложения для обработки структурированных потоков в Spark
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
Долгохранимые данные
Потоковые данные в Storm
Создание топологии Storm
Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
Потоковые данные в Storm
Создание топологии Storm
Модуль 13. Анализ данных с помощью Spark SQL
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Лабораторная работа: Использование R-сервисов машинного обучения
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Специалист
Федор Самородов
Этот курс предназначен для инженеров, архитекторов, специалистов по подготовке данных, а также разработчиков желающих использовать HDInsight и язык R в своих проектах.
Цель курса – предоставить слушателям знания и навыки, необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.
Курс читается на русском языке!
Спойлер: Вы научитесь
1. Описывать Hadoop, MapReduce, HDInsight;
2. Описывать типы кластеров HDInsight;
3. Описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
4. Описывать, как разрешать доступ пользователей к объектам;
5. Описывать конфигурации и архитектуру хранилища HDInsight;
6. Проводить мониторинг ресурсов с Operations management suite;
7. Выполнять запросы с Hive и Pig;
8. Описывать использование ETL и Spark;
9. Внедрять интерактивные запросы;
10. Выполнять интерактивную обработку данных с помощью Apache Phoenix;
11. Управлять задачами потоковой аналитики;
12. Создавать приложения для обработки структурированных потоков в Spark;
13. Использовать потоковые данные в Storm;
14. Объяснять, как работает язык R;
15. Преобразовывать и очищать наборы данных.
Спойлер: Содержание
Модуль 1. Начало работы с HDInsight
Большие данные
Hadoop
MapReduce
HDInsight
Лабораторная работа: Запросы к большим данным
Запросы к данным с Hive
Запросы к данным с Excel
Модуль 2. Развертывание кластеров HDInsight
Типы кластеров HDInsight
Управление кластерами HDInsight
Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
Создание кластера Hadoop в HDInsight
Настройка HDInsight с помощью скрипта
Настройка HDInsight с помощью Bootstrap
Удаление кластера HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
Недоменные кластеры
Настройка кластера HDInsight, подключенного к домену
Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
Настройка кластера HDInsight, подключенного к домену
Настроить политики Hive
Модуль 4. Загрузка данных в HDInsight
Хранилище HDInsigh
Средства загрузки данных
Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
Загрузка данных с помощью Sqoop
Загрузка данных с помощью AZcopy
Загрузка данных с помощью ADLcopy
Использование HDInsight для сжатия данных
Модуль 5. Поиск и устранение неисправностей в HDInsight
Анализ журналов
Журналы YARN
Дампы кучи (Heap)
Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
Анализ журналов HDInsight
Анализ журналов YARN
Мониторинг ресурсов с Operations management suite
Модуль 6. Внедрение пакетных решений
Хранилище Apache Hive
Запросы с Hive и Pig
Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
Загрузка данных в таблицу Hive
Запрос данных в Hive и Pig
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
Что такое Spark?
ETL и Spark
Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
Создание кластера HDInsight с доступом к хранилищу Data Lake
Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8. Анализ данных со Spark SQL
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
Внедрение интерактивных запросов для больших данных с помощью Hive
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix
Лабораторная работа: Анализ данных с помощью Hive и Phoenix
Внедрение интерактивных запросов для больших данных с помощью Hive
Проведение исследовательского анализа данных с помощью Hive
Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10. Потоковая аналитика
Потоковая аналитика
Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
Обработка потоковых данных из потоковой аналитики
Управление задачами потоковой аналитики
Модуль 11. Spark Streaming и DStream API
Обзор когнитивных служб
DStream
Создание приложений для обработки структурированных потоков в Spark
Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
Создание приложения Spark Streaming с помощью DStream API
Создание приложения для обработки структурированных потоков в Spark
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
Долгохранимые данные
Потоковые данные в Storm
Создание топологии Storm
Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
Потоковые данные в Storm
Создание топологии Storm
Модуль 13. Анализ данных с помощью Spark SQL
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Лабораторная работа: Использование R-сервисов машинного обучения
Внедрение интерактивных запросов
Проведение исследовательского анализа данных
Для просмотра содержимого вам необходимо авторизоваться
Для просмотра содержимого вам необходимо авторизоваться