job觸發流程原理剖析與原始碼分析

阿新 • • 發佈：2019-02-18

以wordcount流程解析

val lines = sc.textFile()

  def textFile(
      path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped()
    //hadoopFile（）方法的呼叫，拿到Hadoop的配置檔案，建立HadoopRDD，廣播變數
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],
    //執行map運算元操作，剔除key，只保留Value，獲得一個MapPartionsRDD。
    //MapPartionsRDD裡面就是一行一行的文字資料 
      minPartitions).map(pair => pair._2.toString).setName(path)
  }

val words = lines.flatMap(line => line.split(” “)) val pairs =
words.map(word => (word, 1))

// 其實RDD裡是沒有reduceByKey的，因此對RDD呼叫reduceByKey()方法的時候，會觸發scala的隱式轉換；此時就會在作用域內，尋找隱式轉換，會在RDD中找到rddToPairRDDFunctions()隱式轉換，然後將RDD轉換為PairRDDFunctions。
// 接著會呼叫PairRDDFunctions中的reduceByKey()方法

val counts = pairs.reduceByKey(_ + _)
counts.foreach(count => println(count._1 + “: ” + count._2))

  def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      resultHandler: (Int, U) => Unit): Unit = {
    if (stopped.get()) {
      throw new IllegalStateException("SparkContext has been shutdown" 
)
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    if (conf.getBoolean("spark.logLineage", false)) {
      logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString)
    }
    //呼叫SparkContext之前初始化建立的DAGScheduler的Runjob的方法。
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint()
  }

job觸發流程原理剖析與原始碼分析

以wordcount流程解析 val lines = sc.textFile() def textFile( path: String, minPartitions:

Spark:BlockManager原理剖析與原始碼分析

BlockManager是Spark的分散式儲存系統，與我們平常說的分散式儲存系統是有區別的，區別就是這個分散式儲存系統只會管理Block塊資料，它執行在所有節點上。BlockManager的結構是Maser-Slave架構，Master就是Driver上的BlockManagerMaste

Spark:Shuffle原理剖析與原始碼分析

spark中的Shuffle是非常重要的，shuffle不管在Hadoop中還是Spark中都是重重之重，特別是在Spark shuffle優化的時間。更是非常的重要。普通shuffle操作的原理剖析（spark 2.x棄用）每一個Job提交後都會生成一個ResultStage和

Spark:Task原理剖析與原始碼分析

在Spark中，一個應用程式要想被執行，肯定要經過以下的步驟：從這個路線得知，最終一個job是依賴於分佈在叢集不同節點中的task，通過並行或者併發的執行來完成真正的工作。由此可見，一個個的分散式的task才是Spark的真正執行者。下面先來張task執行框架整體的對Spark的task

Spark:Executor原理剖析與原始碼分析

Executor原理示意圖 Executor程序的啟動 worker中為application啟動的executor，實際上是啟動的這個CoarseGrainedExecutorBackend程序. 原始碼分析：第一步:CoarseGrainedExecutor

Spark:TaskScheduler原理剖析與原始碼分析

TaskScheduler是一個介面，DAGScheduler在提交TaskSet給底層排程器的時候是面向介面TaskScheduler。TaskSchduler的核心任務是提交Taskset到叢集運算並彙報結果原始碼分析第一步：TaskScheduler 提交tasks的入口 su

Spark:DAGScheduler原理剖析與原始碼分析

Job觸發流程原理與原始碼解析 wordcount案例解析，來分析Spark Job的觸發流程程式碼：var linesRDD= sc.textFile('hdfs://') SparkContext中textFile方法 /** * hadoopFile方法呼叫會

Spark:Worker原理剖析與原始碼分析

解釋： Master要求Worker啟動Driver和Executor Worker啟動Driver的一個基本的原理，Worker會啟動一個執行緒DriverRunner，然後DriverRunner會去負責啟動Driver程序，然後在之後對Driver程序進行管理

Spark:Master原理剖析與原始碼分析

Master主備切換 Spark原生的standalone模式是支援主備切換的，也就是說master可以配置兩個，當Action Master因故障掛了的時候，系統會自動將Standby Master 切換成 Active Master。 Master的準備切換分為兩種:

Spark:SparkContext原理剖析與原始碼分析

在Spark中，SparkContext是Spark所有功能的一個入口，你無論是用java、scala，甚至是python編寫都必須要有一個SparkContext，它的主要作用，包括初始化Spark應用程式所需的一些核心元件，包括排程器（DAGSchedule、TaskScheduler

Master原理剖析與原始碼分析：資源排程機制原始碼分析（schedule()，兩種資源排程演算法）

1、主備切換機制原理剖析與原始碼分析 2、註冊機制原理剖析與原始碼分析 3、狀態改變處理機制原始碼分析 4、資源排程機制原始碼分析（schedule()，兩種資源排程演算法） * Dri

Spark核心原始碼深度剖析：Master註冊機制原理剖析與原始碼分析

1.Master註冊機制原理剖析（圖解） 2.部分原始碼分析 master.scala中的Application註冊原理程式碼分析： case RegisterApplication(

Spark核心原始碼深度剖析：SparkContext原理剖析與原始碼分析

1.SparkContex原理剖析 1.圖解： 2.SparkContext原始碼分析 1.TaskScheduler建立： SparkContext.scala // Create and start the scheduler p

DAGScheduler原理剖析與原始碼分析

stage劃分演算法：必須對stage劃分演算法很清晰，知道自己的Application被劃分了幾個job，每個job被劃分了幾個stage，每個stage有哪些程式碼，只能在線上報錯的資訊上更快的發現問題或者效能調優。 //DAGscheduler的jo

課時17 第三課Spark內部原理剖析與原始碼閱讀（五）

為何spark shuffle比mapreduce shuffle慢？主要是spark shuffle的shuffle read階段還不夠優秀，它是基於hashmap實現的，shuffle read會把shuffel write階段已經排序資料給重新轉成亂序的，轉成亂序之後又做了排序，導致非常低效，sp

OpenCV學習筆記（31）KAZE 演算法原理與原始碼分析（五）KAZE的原始碼優化及與SIFT的比較

KAZE系列筆記： 1. OpenCV學習筆記（27）KAZE 演算法原理與原始碼分析（一）非線性擴散濾波 2. OpenCV學習筆記（28）KAZE 演算法原理與原始碼分析（二）非線性尺度空間構建 3. Op

OpenCV學習筆記（30）KAZE 演算法原理與原始碼分析（四）KAZE特徵的效能分析與比較

KAZE系列筆記： 1. OpenCV學習筆記（27）KAZE 演算法原理與原始碼分析（一）非線性擴散濾波 2. OpenCV學習筆記（28）KAZE 演算法原理與原始碼分析（二）非線性尺度空間構

SURF演算法原理與原始碼分析

如果說SIFT演算法中使用DOG對LOG進行了簡化，提高了搜尋特徵點的速度，那麼SURF演算法則是對DoH的簡化與近似。雖然SIFT演算法已經被認為是最有效的，也是最常用的特徵點提取的演算法，但如果不借助於硬體的加速和專用影象處理器的配合，SIFT演算法以現有的計算機仍然很難達到實時的程度。對於需要

SIFT原理與原始碼分析：DoG尺度空間構造

《SIFT原理與原始碼分析》系列文章索引：http://blog.csdn.net/xiaowei_cqu/article/details/8069548 尺度空間理論自然界中的物體隨著觀測尺度不同有不同的表現形態。例如我們形容建築物用“米”，觀測分子、原子等用“納米”。

Shuffle操作的原理與原始碼分析

普通的shuffle操作第一個特點，在Spark早期版本中，那個bucket快取是非常非常重要的，因為需要將一個ShuffleMapTask所有的資料都寫入記憶體快取之後，才會重新整理到磁碟。但是這就有一個問題，如果map side資料過多

job觸發流程原理剖析與原始碼分析

相關推薦