系統學習spark計劃_spark老湯
老湯spark由淺入深深到底系列課程計劃簡介如下:
spark 2.x 由淺入深深到底一_正確理解spark(課程已經發布)
本課程不會有太多的技術細節,主要是一些分布式存儲和計算的基本理念和思想
目標:
1: 徹底弄懂什麽是RDD及其特點
2: 徹底弄懂什麽是spark的分布式內存計算,進而理解spark真正解決的問題
3: 徹底弄懂spark是怎樣解決各個領域問題,以及在解決各個領域問題的時候的特點
見:http://edu.51cto.com/course/10932.html
spark 2.x 由淺入深深到底二_RDD API(課程已經發布)
本課程主要是由淺入深深到底的講述RDD的每一個API,以及會講到
課程已經發布,見: http://edu.51cto.com/course/11058.html
spark 2.x 由淺入深深到底三_Spark core必備基礎知識(會以免費的博客的形式給出)
本課程主要會深入理解spark core的三個基礎組件以及我們深入理解spark需要的部分的基礎java知識
目標:
1: spark的安全管理
2: spark的序列化機制
3: spark的RPC機制,包括部分的nio的知識點
4: Jvm啟動機制以及類加載機制
spark 2.x 由淺入深深到底四_Spark core應用程序的提交流程
本課程主要包含了兩個部分,一個是spark的集群的初始化原理,一個是
目標:
1: 徹底理解spark的腳本系統,我們可以借此機會看看世界上最優秀的項目的腳本是怎麽設計和管理的
2: spark standalone 集群的初始化,包括Master和Worker的初始化,在這章節會搞清楚:
spark Master的高可用是怎麽保證的
Worker節點是怎麽註冊到Master上的
了解Worker節點上的ExternalShuffleService
3: spark提交應用的幾種方式,其中會重點講解spark-submit這個腳本提交應用的原理、流程以及每一個提交參數的含義用法
spark 2.x 由淺入深深到底五
本課程會詳細的理解spark的三種資源管理機制:
1: spark自帶的standalone模式
2: hadoop的yarn模式,這節課使的我們徹底弄明白spark是怎麽基於yarn來跑任務的,以及我們怎麽樣去自己實現一個往yarn上提交應用的客戶端
3: mesos模式,這節課使的我們徹底弄明白spark是怎麽基於mesos來跑任務的,以及我們怎麽樣去自己實現一個往mesos上提交應用的客戶端
4: spark在driver端是怎麽進行executor資源的管理的
spark 2.x 由淺入深深到底六_Spark core之scheduler on driver
本課程會深入理解spark driver上的兩個scheduler:
1: DAGScheduler,理解stage是什麽、stage是怎麽劃分的以及stage是怎麽調度的等
2: TaskScheduler,理解task是什麽,task是怎麽調度的,task的本地性是怎麽計算的,task的推測機制是什麽樣的等
3: spark的累加器Accumulator的實現原理
spark 2.x 由淺入深深到底七_Spark core之components in SparkEnv(會以免費的博客的形式給出)
本課程主要是對spark driver端和executor端的執行環境的組件的深入理解:
1: Broadcast的實現原理
2: 內存管理實現原理
3: 存儲管理實現原理
4: MapOutputTracker實現原理
5: shuffle管理原理實現
spark 2.x 由淺入深深到底八_Spark sql之catalyst
主要從如下幾個方面來深入了解catalyst:
1: 基礎數據結構tree and rule
2: 分析模塊-analysis
3: 優化器 - optimizer
4: 物理執行計劃的生成 - Physical Planning
5: code Generation
spark 2.x 由淺入深深到底九_Spark sql之sql core
主要是對Dataset的api進行講解,以及從不同的數據源中讀寫數據
1: Dataset的api及其原理
2: 物理執行相應的RDD的詳細講解
3: 統一數據源,比如從parquet, json等讀寫數據
spark 2.x 由淺入深深到底十_Spark sql之sql with hive
1: 理解spark sql是怎麽和hive結合的
2: 理解spark sql是怎麽實現hive thriftServer的
spark 2.x 由淺入深深到底十一_Spark streaming
1: DStream api的使用和原理理解
2: 實時接收數據的原理,以及基於kafka和flume是怎麽接收數據的
3: 實時的批處理job是怎麽調度的 - JobGenerator
4: 實時接收到的數據是怎麽跟蹤的 - ReceiverTracker
spark 2.x 由淺入深深到底十二_Spark Graphx
1: EdgeRDD的構建
2: VertexRDD的構建
3: Graph的構建
4: Graph Api的使用及其原理
系統學習spark計劃_spark老湯