Spark一些基礎原理——Job

阿新 • • 發佈：2018-12-25

背景知識：Spark基本工作原理、RDD

lv0

一個典型的Job是由以下過程組成：從資料來源（Data blocks）載入生成RDD（每個資料分片Partition一般是128M，最後一條記錄橫跨2個blocks），後將RDD經過一系列轉換（包括基本型別轉換和洗牌）最終得到計算結果（result），再將結果彙總到driver端。往往由Action觸發，每個Action對應一個Job。(後接1-1)
每個Job由一個或多個Stage構成，Stage根據寬依賴進行劃分。各Stage之間是有前後關係的，只有前面的Stage完成計算才會執行下一個Stage。
每個Stage是由一組或多組Task組成的，是平行計算的實體，在Executor中執行。Task分為兩類，一類為shuffleMapTask作為中間過程，另一類為resultTask作為最後的Task。其生命週期如下：①Driver中的CoarseGrainedSchedulerBackend（粗粒度後端排程）（序列化任務大小限制為128M）給CoarseGrainedExecutorBackend（粗粒度後端執行）傳送的LaunchTask（Task啟動指令）後，反序列化TaskDescription（Task任務描述）（第一次反序列化，共4次）。②Executor通過LaunchTask執行Task，通過new()函式建立TaskRunner。③TaskRunner通過ThreadPool執行具體的Task，通過run方法呼叫statusUpdate向Driver彙報狀態為Running。④TaskRunner內部反序列化Task相關依賴（第二次反序列化，共4次），獲取所需要的檔案和jar。⑤反序列化Task本身（第三次反序列化，共4次）。⑥執行任務，Task通過runTask方法呼叫RDD的iteratior方法對Partition進行計算，其中對ShuffleMapTask中的元素先對RDD及其依賴關係進行反序列化（第四次反序列化，共4次），最終呼叫RDD的compute方法進行計算；而對ResultTask則根據rdd.iteratior最終呼叫compute執行。⑦執行結果序列化傳給Driver。⑧CoarseGrainedExecutorBackend向DriverEndpoint傳送StatusUpdate傳輸執行結果（該結果最大為1GB），DriverEndpoint會將結果傳輸給TaskSchedulerImpl處理，最終交給TaskResultGetter通過執行緒分別處理成功與失敗兩種情況，最終告訴DAGScheduler任務處理結束情況。

lv1-1

每個Action運算元本質上是執行了sc的runJob方法，這是一個過載方法。核心是交給DAGScheduler中的submitJob執行，通過JobSubmitted物件給eventProcessLoop。eventProcessLoop實現了EventLoop中的onReceive方法，該方法回撥doOnReceive經過模式匹配方式執行到JobSubmitted，在handleJobSubmitted中建立finalStage，建立與父Stage的依賴鏈條。

Spark一些基礎原理——Job

背景知識：Spark基本工作原理、RDD

lv0

lv1-1

Spark一些基礎原理——Job

Spark一些基礎原理——資源排程

Spark一些基礎原理——Cache

Spark一些基礎原理——Shuffle

Spark Streaming基礎原理

Spark一些常用的資料處理方法-2.MLlib基礎統計方法

【Spark 深入學習-08】說說Spark分區原理及優化方法

python大法之二-一些基礎（一）

Python之路58-Django安裝配置及一些基礎知識點

關於php的一些基礎知識

spark streaming基礎知識1

醫脈神劍之超聲成像基礎原理（轉）

醫脈神劍之正電子發射計算機斷層掃描成像（PET）基礎原理（轉）

spark一些入門資料

php常見的一些基礎算法

虛擬化技術基礎原理詳解

spark學習(基礎篇)--(第三節)Spark幾種運行模式

Linux運維基礎原理匯總

MapReduce 2 中一些基礎數據類型

SQLServer一些基礎命令

Spark一些基礎原理——Job

背景知識：Spark基本工作原理、RDD

lv0

lv1-1

相關推薦