Spark FinalStage處理(Stage劃分)

阿新 • • 發佈：2018-12-05

Spark FinalStage處理(Stage劃分)

Youtube視訊

Spark FinalStage處理(Stage劃分)(Youtube視訊) : https://youtu.be/yFJugOV0Fak

BiliBili視訊

Spark FinalStage處理(Stage劃分)(bilibili視訊) :

https://www.bilibili.com/video/av37445057/

說明

由於DAGScheduler進行stage提交傳的引數為FinalStage,所以對FinalStage的構成進行分析
RDD依賴為shuffleDep的stage已經進行了快取,(這個時候已經對Stage進行明顯的劃分，只是沒有提交) shuffleToMapStage.get(shuffleDep.shuffleId)

DAGScheduler事件處理JobSubmitted

呼叫newResultStage()方法

private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {
    var finalStage: ResultStage = null
    try {
      // New stage creation may throw an exception if, for example, jobs are run on a
      // HadoopRDD whose underlying HDFS files have been deleted.
      finalStage = newResultStage(finalRDD, func, partitions, jobId, callSite)
    } catch {
      case e: Exception =>
        logWarning("Creating new stage failed due to exception - job: " + jobId, e)
        listener.jobFailed(e)
        return
    }

    val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
    clearCacheLocs()
    logInfo("Got job %s (%s) with %d output partitions".format(
      job.jobId, callSite.shortForm, partitions.length))
    logInfo("Final stage: " + finalStage + " (" + finalStage.name + ")")
    logInfo("Parents of final stage: " + finalStage.parents)
    logInfo("Missing parents: " + getMissingParentStages(finalStage))

    val jobSubmissionTime = clock.getTimeMillis()
    jobIdToActiveJob(jobId) = job
    activeJobs += job
    finalStage.setActiveJob(job)
    val stageIds = jobIdToStageIds(jobId).toArray
    val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
    listenerBus.post(
      SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
    submitStage(finalStage)

    submitWaitingStages()
  }

呼叫方法getParentStagesAndId()得到上級stage列表

  /**
   * Create a ResultStage associated with the provided jobId.
   */
  private def newResultStage(
      rdd: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      jobId: Int,
      callSite: CallSite): ResultStage = {
    val (parentStages: List[Stage], id: Int) = getParentStagesAndId(rdd, jobId)
    val stage = new ResultStage(id, rdd, func, partitions, parentStages, jobId, callSite)
    stageIdToStage(id) = stage
    updateJobIdStageIdMaps(jobId, stage)
    stage
  }

呼叫方法getParentStages()

  /**
   * Helper function to eliminate some code re-use when creating new stages.
   */
  private def getParentStagesAndId(rdd: RDD[_], firstJobId: Int): (List[Stage], Int) = {
    val parentStages = getParentStages(rdd, firstJobId)
    val id = nextStageId.getAndIncrement()
    (parentStages, id)
  }

該方法計算上級stage
根據當前RDD=rdd4 的依賴型別判斷是不是ShuffleDependency
不是，找上級RDD，再繼續判斷上級RDD的依賴型別
是，建立ShuffleMapStage並還回，此stage的RDD為rdd4的上級RDD
注意只要有上級stage,就會一直先找上級stage,這樣找到根上的stage的id為0,依次子stage的id加1

/**
   * Get or create the list of parent stages for a given RDD.  The new Stages will be created with
   * the provided firstJobId.
   */
  private def getParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] = {
    val parents = new HashSet[Stage]
    val visited = new HashSet[RDD[_]]
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    val waitingForVisit = new Stack[RDD[_]]
    def visit(r: RDD[_]) {
      if (!visited(r)) {
        visited += r
        // Kind of ugly: need to register RDDs with the cache here since
        // we can't do it in its constructor because # of partitions is unknown
        for (dep <- r.dependencies) {
          dep match {
            case shufDep: ShuffleDependency[_, _, _] =>
              parents += getShuffleMapStage(shufDep, firstJobId)
            case _ =>
              waitingForVisit.push(dep.rdd)
          }
        }
      }
    }
    waitingForVisit.push(rdd)
    while (waitingForVisit.nonEmpty) {
      visit(waitingForVisit.pop())
    }
    parents.toList
  }

圖解FinalStage

Spark FinalStage處理(Stage劃分)

Spark FinalStage處理(Stage劃分) 更多資源 github: https://github.com/opensourceteams/spark-scala-maven csdn(彙總視訊線上看): https://blog.csdn.net/thin

[Spark原始碼解析]DAGScheduler劃分stage

#[Spark原始碼解析]DAGScheduler劃分stage 在 Spark 裡每一個操作生成一個 RDD，RDD 之間連一條邊，最後這些 RDD 和他們之間的邊組成一個有向無環圖，這個就是 DAG，Spark 核心會在需要計算髮生的時刻繪製一張關於計算路徑的有向無環圖，也就是 DAG。

Spark原始碼《三》Stage劃分

當發生shuffle時，sc.runJob-->DAGScheduler.runJob-->submitStage()，提交stage時，會首先判斷是否有未執行的父stage，如果沒有呼叫submitMissingTasks提交stage 如果有則呼叫submitStage()

Spark原始碼分析之三：Stage劃分

Stage劃分的大體流程如下圖所示：前面提到，對於JobSubmitted事件，我們通過呼叫DAGScheduler的handleJobSubmitted()方法來處理。那麼我們先來看下程式碼： // 處理Job提交的函式 pri

我和spark有個約會（1）-Spark中的stage的劃分原理

我和spark有個約會（1）瞭解DAGScheduler 階段對stage的劃分原理 spark寬窄依賴 narrow dependencies:child rdd只依賴於parentrdd[s]的部分固定的partition wide d

Spark複雜情況下的stage劃分 reduceByKey leftOuterJoin union

為了研究複雜情況下的stage劃分，故意寫了一段複雜一點的程式碼進行測試。程式碼： import org.apache.spark.{SparkConf, SparkContext} object WordDemo { //spark-submit --name

通過Spark Streaming處理交易數據

amp 引入解決方案框架 ins 容錯 ams 輕量 rdm Apache Spark 是加州大學伯克利分校的 AMPLabs 開發的開源分布式輕量級通用計算框架。由於 Spark 基於內存設計，使得它擁有比 Hadoop 更高的性能(極端情況下可以達到 100x)，

DAGScheduler stage 劃分算法

tst 方法代碼總結思想內存 ima mis bsp DAGScheduler stage 劃分算法 stage劃分算法很重要，對於spark開發人員來說，必須對stage劃分算法很清晰，知道自己編寫的spark Application被劃分成了幾個job，每個jo

DAGScheduler原始碼分析stage劃分演算法，task最佳位置計算演算法

在DAGScheduler類中的HandleJobSubmitted是job排程的核心入口進入了newStage（）方法它會建立一個stage物件進入submitStage（）方法進入getMissingParentStages方法（）進入s

spark中job stage task關係

1.1 例子，美國 1880 － 2014 年新生嬰兒資料統計目標：用美國 1880 － 2014 年新生嬰兒的資料來做做簡單的統計資料格式：每年的新生嬰兒資料在一個檔案裡面每個檔案的每一條資料格式：姓名,性別,新生人數 1.2 執行流程概覽上面

Spark Join處理流程分析

為了更好的分析Spark Join處理流程，我們選擇具有Shuffle操作的示例來進行說明，這比沒有Shuffle操作的處理流程要複雜一些。本文主要通過實現一個Join操作的Spark程式，提交執行該程式，並通過Spark UI上的各種執行資訊來討論Spark Join處理流程。 Spa

Cassandra 和 Spark 資料處理一窺

　　Apache Cassandra 資料庫近來引起了很多的興趣，這主要源於現代雲端軟體對於可用性及效能方面的要求。　　那麼，Apache Cassandra 是什麼?它是一種為高可用性及線性可擴充套件性優化的分散式的聯機交易處理 (OLTP) 資料庫。具體說到 Cassandra 的用途時，可以想想

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十二節 Spark SQL 處理流程分析

作者：周志湖下面的程式碼演示了通過Case Class進行表Schema定義的例子： // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLConte

Spark 互動式處理上百 TB 資料

Apache Spark在記憶體資料處理領域有很多創新。有了這個框架，你可以上傳資料到叢集記憶體，並在互動模式下以非常快的速度處理這些資料（互動模式是Spark另一個重要特性）。2014年Databricks宣佈 Apache Spark能在23分鐘內完成100T資

spark--DataFrame處理udf操作和一些聚合操作

在spark中對資料進行處理udf函式還是很多的下面介紹在df下udf操作例項 val sqlContext = new SQLContext(sc) import sqlContext.implicits._ 呼叫sqlcontext裡面的udf函式 sql

Spark流處理中的DStrem.foreachRDD()方法

Spark資料處理 Spark作為分散式資料處理的一個開源框架，因其計算的高效性和簡潔的API而廣受歡迎。一般來說，Spark大部分時候被用來進行批處理。但現在Spark通過其SparkStreaming模組也實現了一定的流處理的功能。 Spark流處理

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

HDU 4417 Super Mario （樹狀陣列+離線處理）(劃分樹+二分答案)

題意：給定1--n區間，有q個詢問，詢問l,r,k表示區間[l,r]小於等於k的數的個數思路：可以用劃分樹（求區間第k大值）變形一下，來求小於等於k的個數，但是此題直接離線處理詢問高效的多。首先將1--n區間的值記錄位置，從小到大排序，每個詢問按照k值從小到大排序，

Kafka Topic ISR不全，個別Spark task處理時間長

現象 Spark streaming讀kafka資料做業務處理時，同一個stage的task,有個別task的執行時間比多數task時間都長，造成業務延遲增大。檢視業務對應的topic發現當topic isr不足時，會出現個別task執行時間過長的現象. 原因和大部分分散式系統一樣，Kafka處理失敗需要

Spark亂碼處理以及儲存csv格式

import org.apache.hadoop.io.{LongWritable, Text} import org.apache.hadoop.mapred.TextInputFormat import java.io.{StringReader, StringWrite

Spark FinalStage處理(Stage劃分)

Spark FinalStage處理(Stage劃分)

更多資源

Youtube視訊

BiliBili視訊

說明

DAGScheduler事件處理JobSubmitted

圖解FinalStage

相關推薦