1. 程式人生 > >雷頓學院大資料(一期課程)

雷頓學院大資料(一期課程)

 

雷頓學院大資料課程大綱(第一期)

學 時:75 課時

適用物件:雷頓學院招收大資料班全體學員

 

一、課程的性質與目標

網際網路企業作為大資料的發源地,一直都是大資料應用與技術快速發展的行業。作為大資料從業者,進入網際網路企業工作,一直都是學習大資料與成就自己的最佳選擇。目前網際網路作為國內最熱門的 IT 前沿陣地,逐漸成為熱門轉型與從業方向。本課程系統地介紹了網際網路大資料發展歷史及最新進展,從而完整地還原了網際網路大資料的 業務場景與開發技術。針對重點內容進行深入講解,讓學員掌握目前網際網路大資料最常使用的研發與分析技能 。

 

二、課程的主要內容

第一章 Hadoop生態體系(6課時)

1.1 大資料行業發展與技術應用

1.2 Hadoop起源

1.3 Hadoop生態體系簡介(HDFS MapReduce Hive等)

1.4 Hadoop 3.0新特性

1.5 Hadoop 2.X 安裝的三種模式(叢集,偽分散式,Local)

1.6 Hadoop配置檔案解析

 

第二章 大資料檔案系統HDFS(5課時)

2.1 HDFS設計與基本概念

2.2 HDFS的體系結構

2.3 HDFS儲存原理

2.4 HDFS資料讀寫過程

2.5 HDFS命令操作

 

第三章 MapReduce原理及實戰(5課時)

3.1 MapReduce工作流程

3.2 WordCount案例實戰

3.3 MapReduce作業執行機制

3.4 MapReduce Shuffle過程

3.5 MapReduce作業調優

 

第四章 HIVE資料倉庫技術(12課時)

4.1 Hive系統概述

4.2 Hive安裝配置

4.3 Hive與傳統資料庫的對比

4.4 Hive資料型別

4.5 Hive表型別與操作

4.6 Hive儲存格式與壓縮

4.7 Hive 查詢

4.8 Hive常用函式

4.9 使用者定義函式

4.10 Hive資料傾斜問題

4.11 Hive效能優化

 

第五章 分散式資料庫Hbase(5課時)

5.1 Hbase概念和資料模型

5.2 Hbase的系統架構

5.3 Hbase叢集搭建

5.4 Hbase Shell操作命令

5.5 Hbase效能調優

 

第六章 Spark原理與運算元操作(7課時)

6.1 Spark執行機制和安裝

6.2 Spark執行和作業提交

6.3 Rdd程式設計課時一

6.4 Rdd程式設計課時二

6.5 Spark DataFrame和DataSet

 

第七章 Spark SQL程式設計(7課時)

7.1 Spark Session介紹

7.2 Rdd與DataFrame轉化

7.3 載入資料與儲存資料

7.4 jdbc連結資料庫

7.5 Spark hive操作表和SparkAPi

7.6 Spark配置和調優

 

第八章 Spark 實時計算(12課時)

8.1 Spark Streaming大資料實時計算介紹

8.2 Dstream工作原理

8.3 Input Streams 和 Receivers原理講解

8.4 Dstream上的轉換

8.5 Dstream上的輸出

8.6 Spark Streaming updateStateByKey實時wordcount程式

8.7 Spark Streaming 轉換成DataFrame

8.8 Spark Streaming快取與持久化

8.9 Spark Streaming部署和監控

8.10 Spark Streaming效能調優

 

第九章 Kafka核心技術(9課時)

9.1 Kafka概念與功能

9.2 Kafka架構圖與工作流

9.3 Kafka叢集搭建

9.4 Kafka特性詳解

9.5 提交與偏移量

9.6 訊息釋出與訂閱

 

第十章 ElasticSearch核心技術(9課時)

10.1 ElasticSearch介紹

10.2 ElasticSearch安裝部署

10.3 ES儲存原理

10.4 資料輸入和輸出

10.5 ES資料查詢

10.6 分散式檢索原理

10.7 組合過濾

10.8 資料聚合

10.9 ES優化技巧

 

三、學時分配

章節

課時

第一章 Hadoop生態體系

6

第二章 大資料檔案系統HDFS

5

第三章 MapReduce實戰及原理

4

第四章 HIVE資料倉庫技術

11

第五章 分散式資料庫Hbase

5

第六章 Spark原理與運算元操作

5

第七章 Spark SQL程式設計

7

第八章 Spark 實時計算

12

第九章 Kafka核心技術

9

第十章 ElasticSearch核心技術

9

合計

73

 

課程連結

https://ke.qq.com/course/343598