DAGScheduler原理剖析與原始碼分析

阿新 • • 發佈：2019-02-12

stage劃分演算法：必須對stage劃分演算法很清晰，知道自己的Application被劃分了幾個job，每個job被劃分了幾個stage，每個stage有哪些程式碼，只能在線上報錯的資訊上更快的發現問題或者效能調優。
這裡寫圖片描述

//DAGscheduler的job排程的核心入口
  private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {
      //使用觸發job的最後一個RDD建立finalStage 

    var finalStage: ResultStage = null
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.
      //將stage新增到DAGSchedule快取中
      finalStage = newResultStage(finalRDD, func, partitions, jobId, callSite)
    } catch 
 {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }
    //使用finalStage建立一個Job（最後的stage就是finalStage）
    val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
    clearCacheLocs()
    logInfo("Got job %s (%s) with %d output partitions" 
.format(
      job.jobId, callSite.shortForm, partitions.length))
    logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")")
    logInfo("Parents of final stage: " + finalStage.parents)
    logInfo("Missing parents: " + getMissingParentStages(finalStage))

    val jobSubmissionTime = clock.getTimeMillis()
    //將job加入到記憶體快取中
    jobIdToActiveJob(jobId) = job
    activeJobs += job
    finalStage.setActiveJob(job)
    val stageIds = jobIdToStageIds(jobId).toArray
    val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
    listenerBus.post(
      SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
      //使用submitStage提交finalStage
      //這個方法的呼叫，其實會導致第一個stage的提交，其餘的stage都儲存在棧裡。

    submitStage(finalStage)
  //提交等待的stage
    submitWaitingStages()
  }
//提交stage的方法
//這裡其實就是stage劃分演算法的入口
//但是stage劃分演算法是submitStage（）和getMissingParentStages（）方法共同組成的。 
private def submitStage(stage: Stage) {
    val jobId = activeJobForStage(stage)
    if (jobId.isDefined) {
      logDebug("submitStage(" + stage + ")")
      if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
      //呼叫getMissingParentStages（）獲取父stage
        val missing = getMissingParentStages(stage).sortBy(_.id)
        logDebug("missing: " + missing)
        if (missing.isEmpty) {
          logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
          submitMissingTasks(stage, jobId.get)
        } else {
        //遞迴呼叫submitStage（）方法，去提交父stage，知道最後沒有父stage了。
        //此時會提交stage0，其餘的stage都在waitingStages裡面了。
        //這裡的遞迴相當於stage演算法的精髓
          for (parent <- missing) {
            submitStage(parent)
          }
          // 並且將當前stage放入waitingStages佇列中
          waitingStages += stage
        }
      }
    } else {
      abortStage(stage, "No active job for stage " + stage.id, None)
    }
  }

//獲取某個Stage的父Stage
//如果發現最後一個RDD的所有依賴都是窄依賴，就不會建立新的RDD。
//但是如果這個RDD寬依賴了某個RDD，那麼將會建立一個新的stage。 
//並且將新的stage立即返回。
  private def getMissingParentStages(stage: Stage): List[Stage] = {
    val missing = new HashSet[Stage]
    val visited = new HashSet[RDD[_]]
    // We are manually maintaining a stack here to prevent StackOverflowError
    // 定義了一個棧

    val waitingForVisit = new Stack[RDD[_]]
    def visit(rdd: RDD[_]) {
      if (!visited(rdd)) {
        visited += rdd
        val rddHasUncachedPartitions = getCacheLocs(rdd).contains(Nil)
        if (rddHasUncachedPartitions) {
          for (dep <- rdd.dependencies) {
            dep match {
            //如果是寬依賴的話。
            //其實對於每一個有shuffle操作的運算元，底層都對應了三個RDD（MapPartitionsRDD，shuffleRDD，MapPartitionsRDD）
            //shuffleRdd的map端的會劃分到新的RDD
              case shufDep: ShuffleDependency[_, _, _] =>
              //使用寬依賴的RDD建立一個stage，並且會將isshufflemap設定為true
              //預設最後一個stage不是shufflemap Stage
              //但是fianalstage之前的stage都是shuffleMap stage
                val mapStage = getShuffleMapStage(shufDep, stage.firstJobId)
                if (!mapStage.isAvailable) {
                  missing += mapStage
                }
                //如果是窄依賴，就將RDD放入棧中
              case narrowDep: NarrowDependency[_] =>
                waitingForVisit.push(narrowDep.rdd)
            }
          }
        }
      }
    //首先，向棧中推入了stage的最後一個RDD
    waitingForVisit.push(stage.rdd)
    while (waitingForVisit.nonEmpty) {
    //對stage的最後一個RDD，呼叫Visit（）方法
      visit(waitingForVisit.pop())
    }
    missing.toList
  }

//提交stage，為stage建立一批task，task數量與partition數量相同
 private def submitMissingTasks(stage: Stage, jobId: Int) {
    logDebug("submitMissingTasks(" + stage + ")")
    // 獲取partition數量
    stage.pendingPartitions.clear()


    val partitionsToCompute: Seq[Int] = stage.findMissingPartitions()
    initialized.
    if (stage.internalAccumulators.isEmpty || stage.numPartitions == partitionsToCompute.size) {
      stage.resetInternalAccumulators()
    }
    val properties = jobIdToActiveJob(jobId).properties
    　//將stage加入runningStages佇列
    runningStages += stage

    stage match {
      case s: ShuffleMapStage =>
        outputCommitCoordinator.stageStart(stage = s.id, maxPartitionId = s.numPartitions - 1)
      case s: ResultStage =>
        outputCommitCoordinator.stageStart(
          stage = s.id, maxPartitionId = s.rdd.partitions.length - 1)
    }
    val taskIdToLocations: Map[Int, Seq[TaskLocation]] = try {
      stage match {
        case s: ShuffleMapStage =>
          partitionsToCompute.map { id => (id, getPreferredLocs(stage.rdd, id))}.toMap
        case s: ResultStage =>
          val job = s.activeJob.get
          partitionsToCompute.map { id =>
            val p = s.partitions(id)
            (id, getPreferredLocs(stage.rdd, p))
          }.toMap
      }
    } catch {
      case NonFatal(e) =>
        stage.makeNewStageAttempt(partitionsToCompute.size)
        listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))
        abortStage(stage, s"Task creation failed: $e\n${e.getStackTraceString}", Some(e))
        runningStages -= stage
        return
    }

    stage.makeNewStageAttempt(partitionsToCompute.size, taskIdToLocations.values.toSeq)
    listenerBus.post(SparkListenerStageSubmitted(stage.latestInfo, properties))

    var taskBinary: Broadcast[Array[Byte]] = null
    try {

        case stage: ShuffleMapStage =>
          closureSerializer.serialize((stage.rdd, stage.shuffleDep): AnyRef).array()
        case stage: ResultStage =>
          closureSerializer.serialize((stage.rdd, stage.func): AnyRef).array()
      }

      taskBinary = sc.broadcast(taskBinaryBytes)
    } catch {

      case e: NotSerializableException =>
        abortStage(stage, "Task not serializable: " + e.toString, Some(e))
        runningStages -= stage
        return
      case NonFatal(e) =>
        abortStage(stage, s"Task serialization failed: $e\n${e.getStackTraceString}", Some(e))
        runningStages -= stage
        return
    }
//為stage建立指定數量的task
    val tasks: Seq[Task[_]] = try {
      stage match {
      //除了final Stage不是shuffle Stage。
        case stage: ShuffleMapStage =>
          partitionsToCompute.map { id =>
          //給每一個partition建立一個task
          //給每個task最佳位置
            val locs = taskIdToLocations(id)
            val part = stage.rdd.partitions(id)
            //給shuffle Stage建立ShuffleStageTask
            new ShuffleMapTask(stage.id, stage.latestInfo.attemptId,
              taskBinary, part, locs, stage.internalAccumulators)
          }
        //不是S戶發放了 Stage就是finalStage。那麼建立ResultStage
        case stage: ResultStage =>
          val job = stage.activeJob.get
          partitionsToCompute.map { id =>
           //給每一個partition建立一個task
          //給每個task最佳位置(就是從stage的最後位置開始找，哪個RDD的Partition被Cache了，或被checkPoint了，那麼task的最佳位置就是RDD被Cache或者被CheckPoint的位置)
            val p: Int = stage.partitions(id)
            val part = stage.rdd.partitions(p)
            val locs = taskIdToLocations(id)
            new ResultTask(stage.id, stage.latestInfo.attemptId,
              taskBinary, part, locs, id, stage.internalAccumulators)
          }
      }
    } catch {
      case NonFatal(e) =>
        abortStage(stage, s"Task creation failed: $e\n${e.getStackTraceString}", Some(e))
        runningStages -= stage
        return
    }

    if (tasks.size > 0) {
      logInfo("Submitting " + tasks.size + " missing tasks from " + stage + " (" + stage.rdd + ")")
      stage.pendingPartitions ++= tasks.map(_.partitionId)
      logDebug("New pending partitions: " + stage.pendingPartitions)
      taskScheduler.submitTasks(new TaskSet(
        tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))
      stage.latestInfo.submissionTime = Some(clock.getTimeMillis())
    } else {
      markStageAsFinished(stage, None)

      val debugString = stage match {
        case stage: ShuffleMapStage =>
          s"Stage ${stage} is actually done; " +
            s"(available: ${stage.isAvailable}," +
            s"available outputs: ${stage.numAvailableOutputs}," +
            s"partitions: ${stage.numPartitions})"
        case stage : ResultStage =>
          s"Stage ${stage} is actually done; (partitions: ${stage.numPartitions})"
      }
      logDebug(debugString)
    }
  }

stage劃分演算法總結：

 - 從finalstage倒推
 - 通過寬依賴進行stage劃分
 - 通過遞迴，優先提交父stage

Spark:DAGScheduler原理剖析與原始碼分析

Job觸發流程原理與原始碼解析 wordcount案例解析，來分析Spark Job的觸發流程程式碼：var linesRDD= sc.textFile('hdfs://') SparkContext中textFile方法 /** * hadoopFile方法呼叫會

DAGScheduler原理剖析與原始碼分析

stage劃分演算法：必須對stage劃分演算法很清晰，知道自己的Application被劃分了幾個job，每個job被劃分了幾個stage，每個stage有哪些程式碼，只能在線上報錯的資訊上更快的發現問題或者效能調優。 //DAGscheduler的jo

Spark:BlockManager原理剖析與原始碼分析

BlockManager是Spark的分散式儲存系統，與我們平常說的分散式儲存系統是有區別的，區別就是這個分散式儲存系統只會管理Block塊資料，它執行在所有節點上。BlockManager的結構是Maser-Slave架構，Master就是Driver上的BlockManagerMaste

Spark:Shuffle原理剖析與原始碼分析

spark中的Shuffle是非常重要的，shuffle不管在Hadoop中還是Spark中都是重重之重，特別是在Spark shuffle優化的時間。更是非常的重要。普通shuffle操作的原理剖析（spark 2.x棄用）每一個Job提交後都會生成一個ResultStage和

Spark:Task原理剖析與原始碼分析

在Spark中，一個應用程式要想被執行，肯定要經過以下的步驟：從這個路線得知，最終一個job是依賴於分佈在叢集不同節點中的task，通過並行或者併發的執行來完成真正的工作。由此可見，一個個的分散式的task才是Spark的真正執行者。下面先來張task執行框架整體的對Spark的task

Spark:Executor原理剖析與原始碼分析

Executor原理示意圖 Executor程序的啟動 worker中為application啟動的executor，實際上是啟動的這個CoarseGrainedExecutorBackend程序. 原始碼分析：第一步:CoarseGrainedExecutor

Spark:TaskScheduler原理剖析與原始碼分析

TaskScheduler是一個介面，DAGScheduler在提交TaskSet給底層排程器的時候是面向介面TaskScheduler。TaskSchduler的核心任務是提交Taskset到叢集運算並彙報結果原始碼分析第一步：TaskScheduler 提交tasks的入口 su

Spark:Worker原理剖析與原始碼分析

解釋： Master要求Worker啟動Driver和Executor Worker啟動Driver的一個基本的原理，Worker會啟動一個執行緒DriverRunner，然後DriverRunner會去負責啟動Driver程序，然後在之後對Driver程序進行管理

Spark:Master原理剖析與原始碼分析

Master主備切換 Spark原生的standalone模式是支援主備切換的，也就是說master可以配置兩個，當Action Master因故障掛了的時候，系統會自動將Standby Master 切換成 Active Master。 Master的準備切換分為兩種:

Spark:SparkContext原理剖析與原始碼分析

在Spark中，SparkContext是Spark所有功能的一個入口，你無論是用java、scala，甚至是python編寫都必須要有一個SparkContext，它的主要作用，包括初始化Spark應用程式所需的一些核心元件，包括排程器（DAGSchedule、TaskScheduler

Master原理剖析與原始碼分析：資源排程機制原始碼分析（schedule()，兩種資源排程演算法）

1、主備切換機制原理剖析與原始碼分析 2、註冊機制原理剖析與原始碼分析 3、狀態改變處理機制原始碼分析 4、資源排程機制原始碼分析（schedule()，兩種資源排程演算法） * Dri

Spark核心原始碼深度剖析：Master註冊機制原理剖析與原始碼分析

1.Master註冊機制原理剖析（圖解） 2.部分原始碼分析 master.scala中的Application註冊原理程式碼分析： case RegisterApplication(

Spark核心原始碼深度剖析：SparkContext原理剖析與原始碼分析

1.SparkContex原理剖析 1.圖解： 2.SparkContext原始碼分析 1.TaskScheduler建立： SparkContext.scala // Create and start the scheduler p

job觸發流程原理剖析與原始碼分析

以wordcount流程解析 val lines = sc.textFile() def textFile( path: String, minPartitions:

課時17 第三課Spark內部原理剖析與原始碼閱讀（五）

為何spark shuffle比mapreduce shuffle慢？主要是spark shuffle的shuffle read階段還不夠優秀，它是基於hashmap實現的，shuffle read會把shuffel write階段已經排序資料給重新轉成亂序的，轉成亂序之後又做了排序，導致非常低效，sp

OpenCV學習筆記（31）KAZE 演算法原理與原始碼分析（五）KAZE的原始碼優化及與SIFT的比較

KAZE系列筆記： 1. OpenCV學習筆記（27）KAZE 演算法原理與原始碼分析（一）非線性擴散濾波 2. OpenCV學習筆記（28）KAZE 演算法原理與原始碼分析（二）非線性尺度空間構建 3. Op

OpenCV學習筆記（30）KAZE 演算法原理與原始碼分析（四）KAZE特徵的效能分析與比較

KAZE系列筆記： 1. OpenCV學習筆記（27）KAZE 演算法原理與原始碼分析（一）非線性擴散濾波 2. OpenCV學習筆記（28）KAZE 演算法原理與原始碼分析（二）非線性尺度空間構

SURF演算法原理與原始碼分析

如果說SIFT演算法中使用DOG對LOG進行了簡化，提高了搜尋特徵點的速度，那麼SURF演算法則是對DoH的簡化與近似。雖然SIFT演算法已經被認為是最有效的，也是最常用的特徵點提取的演算法，但如果不借助於硬體的加速和專用影象處理器的配合，SIFT演算法以現有的計算機仍然很難達到實時的程度。對於需要

SIFT原理與原始碼分析：DoG尺度空間構造

《SIFT原理與原始碼分析》系列文章索引：http://blog.csdn.net/xiaowei_cqu/article/details/8069548 尺度空間理論自然界中的物體隨著觀測尺度不同有不同的表現形態。例如我們形容建築物用“米”，觀測分子、原子等用“納米”。

Shuffle操作的原理與原始碼分析

普通的shuffle操作第一個特點，在Spark早期版本中，那個bucket快取是非常非常重要的，因為需要將一個ShuffleMapTask所有的資料都寫入記憶體快取之後，才會重新整理到磁碟。但是這就有一個問題，如果map side資料過多

DAGScheduler原理剖析與原始碼分析

相關推薦