Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（一） DAGScheduler 之 stage 提交

阿新 • • 發佈：2019-01-10

一個Spark Application分為stage級別和task級別的排程，

task來源於stage，所有本文先從stage提交開始講解task任務提交。

架構圖：

Standalone模式提交執行流程圖：

首先寫一個WordCount程式碼（這個程式碼，為了觀察多個suffle操作，我寫了兩個reducebykey 函式）

原始碼：

直接執行程式碼，檢視spark執行程式時，將程式碼劃分stage生成的DAG流程圖

可知： WordCount 在stage劃分的時候，劃分為三個stage

即在程式碼中如下標識：

講TaskScheduler ，先從DAGScheduler中提交任務開始吧，其中在stage劃分task的時候，涉及到一些優化演算法。

org.apache.spark.scheduler.DAGScheduler#handleMapStageSubmitted

這個方法主要有三個部分：

1、建立finalStage

finalStage = getOrCreateShuffleMapStage(dependency, jobId)

2、建立ActiveJob

val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)

3.提交stage

submitStage(finalStage)

直接看第三步 submitStage

這個是提交stage方法。

裡面是一個遞迴方法，舉例：

在程式碼中，劃分為三個stage：

stage0 ---> stage1 ---> stage2

 submitStage(stage: Stage) 這個方法先傳入的是 finalStage（stage2）

在方法裡面迴圈遞迴，分別尋找stage的父stage，即 stage2 找到 stage1 ， stage1找到stage0

stage0 沒有父stage 即走提交方法：

submitMissingTasks(stage: Stage, jobId: Int)

好，接下來，我們看submitMissingTasks

可以看到入參： ShuffleMapStage 0 和 jobId 0

 找出當前stage的所有分割槽中，還沒計算完分割槽的stage

ShuffleMapStage

stage.findMissingPartitions獲取需要計算的分割槽，不同的stage有不同的實現：

ResultStage

計算分割槽的最佳位置： taskIdToLocations

計算最佳位置的核心方法： getPreferredLocsInternal (遞迴方法)

這個開始傳入的RDD：3，

rdd：3找不到最佳位置，找到rdd：3的父級rdd：2，

rdd2，找不到最佳位置，找到rdd2的父級rdd1

rdd1有最佳位置，直接返回：具體的機器地址：

廣播資訊：

為每一個MapStage的分割槽建立一個 ShuffleMapTask 或者 ResultTask

將ShuffleMapTask 或者 ResultTask 封裝成taskSet，提交Task

在這裡執行的是

taskScheduler.submitTasks(new TaskSet(
  tasks.toArray, stage.id, stage.latestInfo.attemptNumber, jobId, properties))

接著呼叫執行的是：

org.apache.spark.scheduler.TaskSchedulerImpl#submitTasks

未完，請看下一篇文章：

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（二） TaskScheduler

https://blog.csdn.net/zhanglong_4444/article/details/85249376

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（三） TaskScheduler : Executor 任務提交

架構圖：程式碼提交時序圖 Standalone模式提交執行流程圖：首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（二） TaskScheduler : 本地化計算

架構圖： Standalone模式提交執行流程圖：首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey 函式）原始碼：

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（一） DAGScheduler 之 stage 提交

一個Spark Application分為stage級別和task級別的排程， task來源於stage，所有本文先從stage提交開始講解task任務提交。架構圖： Standalone模式提交執行流程圖：首先寫一個W

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

Spark2.3.2原始碼解析： 6. SparkContext原始碼分析（一）： SparkEnv

SparkContext 是通往 Spark 叢集的唯一入口，可以用來在 Spark 叢集中建立 RDDs 、累加器（ Accumulators ）和廣播變數（ Broadcast Variables ）。 SparkContext 也是整個 Spark 應用程式（

Spark2.3.2原始碼解析： 5. RDD 依賴關係：寬依賴與窄依賴

Spark中RDD的高效與DAG（有向無環圖）有很大的關係，在DAG排程中需要對計算的過程劃分Stage，劃分的依據就是RDD之間的依賴關係。RDD之間的依賴關係分為兩種，寬依賴(wide dependency/shuffle dependency)和窄依賴（narrow

Spark2.3.2原始碼解析： 5. SparkConf原始碼分析

在執行程式碼的時候，首先要宣告：SparkConf，本文以SparkConf進行分析，逐步展開。 val conf = new SparkConf() 類中的方法（org.a

Spark2.3.2原始碼解析： 7. SparkContext原始碼分析（二）：TaskScheduler

程式碼部分：啟動指令碼 --name spark-test --class WordCount --master yarn --deploy-mode cluster /A/spark-test.jar /

Spark2.3.2原始碼解析： 8. RDD 原始碼解析（二） textFile 返回的RDD例項是什麼

本文主要目標是分析RDD的例項物件，到底放了什麼。從程式碼val textFile = sc.textFile(args(0)) 開始：直接看textFile 原始碼：你會發現呼叫的是hadoop的api，通過 hadoopFile 讀取資料，返回一個hadoop

Spark2.2.2原始碼解析： 3.啟動worker節點啟動流程分析

本文啟動worker節點啟動流程分析啟動命令： ${SPARK_HOME}/sbin/start-slave.sh spark://sysadmindeMacBook-Pro.local:7077 檢視start-slave.sh

Spark2.2.2原始碼解析： 2.啟動master節點流程分析

本文主要說明在啟動master節點的時候，程式碼的流程走向。授予檔案執行許可權 chmod755 兩個目錄裡的檔案： /workspace/spark-2.2.2/bin --所有檔案 /workspace/spark-2.2.2/sb

[python]My Unique JsonDiff演算法——如何計算2個json串之間的差距並Diff出來（一）：編輯距離（Levenshtein）演算法

啊啊，年底忙著簽證什麼的，好久沒寫日誌啦。。。。新年到來，整點乾貨出來給大家~~順便為自己考試和申請學校攢點人品~~ 之前實習的時候，因為實習公司的業務需求，需要一個比對json字串差異的演算法，然而我在網上查了很久的資料，發現竟然沒有現成

《零基礎入門學習Python》（10）--列表：一個打了激素的陣列（一）

前言有時候我們需要把一些東西暫時儲存起來，因為他們有著一些直接或間接的聯絡，我們需要把它們放在某個組或者集合中，未來可能用得上。很多接觸過程式設計的朋友都知道，都接觸過陣列這個概念，那麼陣列這個概念事實上很簡單，把一大堆同總型別資料挨個擺在一塊，然後通過陣列的下標進行索

USGS-EROS項目espa-surface-reflectance中的LaSRC Version 1.3.0模塊利用vs2010編譯出windows64位版本（一）

product 發現 jpeg git clone args dcl 函數中一比較 Landsat8衛星的大氣校正目前國內有很多學者都在做，隨便百度一下就能找到很多論文，提出的算法都有各自的亮點，學術研究上都有意義。但是，問題來了，如果要真正拿出來處理任意一幅La

Java併發（四）：volatile的實現原理 Java併發（一）：Java記憶體模型乾貨總結

synchronized是一個重量級的鎖，volatile通常被比喻成輕量級的synchronized volatile是一個變數修飾符，只能用來修飾變數。 volatile寫：當寫一個volatile變數時，JMM會把該執行緒對應的本地記憶體中的共享變數重新整理到主記憶體。 volatile讀：當讀一

自己動手：做個數據庫訪問層（一）

說資料庫是資訊系統裡最重要的部分，應當沒幾個人反對。最簡單的訪問資料庫的方式就是用程式直連資料庫，通過Sql進行操作，相信這也是每個程式設計師最初學的方法。但隨著程式規模的增大，再一條條語句去寫的話開發效率就有些低了，因此才有了很多框架去幫助我們操作資料庫

Centos6.10下Open-falcon學習記錄（一）——自定義資料採集、歷史查詢、程序監控

記錄了學習過程，官方文件地址http://book.open-falcon.org/zh_0_2/usage/getting-started.html 另外還看了Open-falcon作者的寫的設計理念的文，見open-falcon編寫的整個腦洞歷程 1 自定義資料採集自定義的資料要求

10分鐘HTML5入門基礎知識（一）

毫無疑問，對於開發人員而言， HTML5 已是一個熱點話題。如果你需要快速瞭解HTML5的功能的基本原理，閱讀本文是你最好的選擇。本文來自The Code Project的付費搜尋位置，由Solution Center提供。這裡的文章致力於向大家提供我們認為對開發人員來說有用和有價值

演算法工程師修仙之路：吳恩達機器學習作業（一）

吳恩達機器學習筆記及作業程式碼實現中文版第一個程式設計作業：單變數線性迴歸（python程式碼實現）一元線性迴歸問題描述在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。假設你是一家連鎖餐廳的執行長，正在

STM32開發筆記47：STM32F4+DP83848乙太網通訊指南系列（一）：知識儲備

微控制器型號：STM32F407VGT 本章為系列指南第一章，主要是介紹一下專案思路，並且儘可能列出從零開始著手開發這個專案過程中，所需要理解的各類知識點，關於這些知識點，如果需要更詳細的介紹，請列為看官自行百度谷歌。 STM32F407簡介 STM32F407主頻168MHz，主頻

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交 （一） DAGScheduler 之 stage 提交

org.apache.spark.scheduler.DAGScheduler#handleMapStageSubmitted

計算 分割槽的最佳位置 ： taskIdToLocations

計算最佳位置的核心方法： getPreferredLocsInternal (遞迴方法)

為每一個MapStage的分割槽 建立一個 ShuffleMapTask 或者 ResultTask

將ShuffleMapTask 或者 ResultTask 封裝成taskSet，提交Task

org.apache.spark.scheduler.TaskSchedulerImpl#submitTasks

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交 （二） TaskScheduler ​​

相關推薦

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（一） DAGScheduler 之 stage 提交

計算分割槽的最佳位置： taskIdToLocations

為每一個MapStage的分割槽建立一個 ShuffleMapTask 或者 ResultTask

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（二） TaskScheduler