Spark 解析 : DAGScheduler中的DAG劃分與提交

阿新 • • 發佈：2018-12-29

一：Spark 執行架構圖片

在這裡插入圖片描述

二：Spark 執行架構

各個RDD之間存在著依賴關係，這些依賴關係形成有向無環圖DAG，DAGScheduler對這些依賴關係形成的DAG，進行Stage劃分，劃分的規則很簡單，從後往前回溯，遇到窄依賴加入本stage，遇見寬依賴進行Stage切分。完成了Stage的劃分,DAGScheduler基於每個Stage生成TaskSet,並將TaskSet提交給TaskScheduler。TaskScheduler 負責具體的task排程,在Worker節點上啟動task。

三：解析DAGScheduler中的DAG劃分與提交

1.DAGScheduler的建立
使用者提交編寫的sparkcontext時就建立了DAGScheduler和TaskScheduler。

2.job提交
job產生髮生在RDD執行動作時，這個動作執行方法runjob,來監聽job的執行情況。DAGSheduler通過內部的方法submitJob來提交，但此時的提交只是job最終提交的一小步。此時提交job並生成jobid，將job放入佇列中，由DAGSheduler中的方法來依次處理。最後的提交是送給了DAGScheduler.handleJobSubmitted，這個方法會進行處理job並進行階段劃分。

3.stage劃分
stage的劃分是從最後往前逆推的，依寬依賴作為劃分的準則，遇到寬依賴就劃分出一個stage，遇到窄依賴就壓入棧中。從stage到父stage以及從RDD找出依賴，均是從最後執行動作的RDD，根據依賴資訊往前探尋，為了避免重複訪問或者說重複運算，將訪問過的RDD存入Hashset中。遞迴呼叫方法getparentStage來不斷劃分stage,每次劃分階段都會生成一個stageid，因為遞迴呼叫所以命名的id越往前越小，也就是說從後面先劃分的stageid是最大的，越小的階段之後提交後先被運算。以這樣的步驟劃分階段，直到階段寬依賴劃分完畢或者第一個RDD被訪問完成。

經過以上三個步驟，DAGScheduler將包含一組task的stage提交給TaskScheduler,當然之後還涉及到org.apache.spark.scheduler.SchedulerBackend進行資源分配等。

四：作用

DAGScheduler的job排程的核心入口
*

stage劃分演算法非常重要：
必須要對stage演算法很清晰，直到你自己編寫的spark application被劃分為了幾個job，
每個job被劃分為了幾個stage，每個stage包含了你那些程式碼，只有知道了每個stage包括了
你那些程式碼之後，在線上，如果你發現某一個stage執行特別慢，或者是某一個stage一直報錯

你才能針對哪個stage對應的程式碼，去排查問題，或者說是效能調優
stage劃分演算法總結：
1、從finalStage倒推
2、通過寬依賴，來進行新的stage的劃分
3、使用遞迴，優先提交父stage

Spark 解析 : DAGScheduler中的DAG劃分與提交

一：Spark 執行架構圖片

二：Spark 執行架構

三：解析DAGScheduler中的DAG劃分與提交

四：作用

Spark 解析 : DAGScheduler中的DAG劃分與提交

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

spark scala maven簡單建立工程與提交任務到yarn

[Spark原始碼解析]DAGScheduler劃分stage

檢測某個方法是否屬於某個類中--解析php函數method_exists()與is_callable()的區別

PHP中常用的超全局變量表單中get和post提交方式的區別 session與cookie的區別 GD庫是做什麽用的

跟我一起學Spark之——RDD Join中寬依賴與窄依賴的判斷

Spark——Streaming原始碼解析之資料的產生與匯入

C++中#pragma once 與 #ifndef 的區別解析

Spark有向無環圖DAG圖解與演示

Spark原始碼走讀（三） —— Stage的劃分和提交

Android平臺利用Zxing生成二維碼與解析圖片中的二維碼

Git-團隊開放中的程式碼同步與提交

一步一步完成如何在現有的CDH叢集中部署一個與CDH版本不同的spark

機器學習中資料訓練集，測試集劃分與交叉驗證的聯絡與區別（含程式）

spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與zip()函式詳解//及python中的args和**kwargs

SOA中的介面劃分與系統模組間的解耦，和通訊

測試jquery中ajax的post提交與springController接收的一些疑問

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

myeclipse中配置svn並連線svn伺服器、專案的檢出與提交

Spark 解析 : DAGScheduler中的DAG劃分與提交

一：Spark 執行架構圖片

二：Spark 執行架構

三：解析DAGScheduler中的DAG劃分與提交

四：作用

相關推薦