Spark shuffle write過程

阿新 • • 發佈：2019-01-29

1. ShuffleMapTask的runTask()方法

override def runTask(context: TaskContext): MapStatus = {
    // Deserialize the RDD using the broadcast variable.
    val deserializeStartTime = System.currentTimeMillis()
    val ser = SparkEnv.get.closureSerializer.newInstance()
    val (rdd, dep) = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)
    _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime

    metrics = Some(context.taskMetrics)
    var writer: ShuffleWriter[Any, Any] = null
    try {
      val manager = SparkEnv.get.shuffleManager
      writer = manager.getWriter[Any, Any](dep.shuffleHandle, partitionId, context)
      writer.write(rdd.iterator(partition, context).asInstanceOf[Iterator[_ <: Product2[Any, Any]]])
      return writer.stop(success = true).get
    } catch {
      case e: Exception =>
        try {
          if (writer != null) {
            writer.stop(success = false)
          }
        } catch {
          case e: Exception =>
            log.debug("Could not stop writer", e)
        }
        throw e
    }
  }

首先得到shuffleManager，shuffleManager分為三種SortShuffleManager，HashshuffleManager，UnsafeShuffleManager。這裡我們focus on SortShuffleManager。得到shuffleManager後，再拿到SortShuffleWriter。在呼叫SortShuffleWriter的write()方法將資料寫入shuffle檔案。

2. SortShuffleWriter的write()方法

override def write(records: Iterator[Product2[K, V]]): Unit = {
    if (dep.mapSideCombine) {
      require(dep.aggregator.isDefined, "Map-side combine without Aggregator specified!")
      sorter = new ExternalSorter[K, V, C](
        dep.aggregator, Some(dep.partitioner), dep.keyOrdering, dep.serializer)
      sorter.insertAll(records)
    } else {
      // In this case we pass neither an aggregator nor an ordering to the sorter, because we don't
      // care whether the keys get sorted in each partition; that will be done on the reduce side
      // if the operation being run is sortByKey.
      sorter = new ExternalSorter[K, V, V](None, Some(dep.partitioner), None, dep.serializer)
      sorter.insertAll(records)
    }

    // Don't bother including the time to open the merged output file in the shuffle write time,
    // because it just opens a single file, so is typically too fast to measure accurately
    // (see SPARK-3570).
    val outputFile = shuffleBlockResolver.getDataFile(dep.shuffleId, mapId)
    val blockId = ShuffleBlockId(dep.shuffleId, mapId, IndexShuffleBlockResolver.NOOP_REDUCE_ID)
    val partitionLengths = sorter.writePartitionedFile(blockId, context, outputFile)
    shuffleBlockResolver.writeIndexFile(dep.shuffleId, mapId, partitionLengths)

    mapStatus = MapStatus(blockManager.shuffleServerId, partitionLengths)
  }

首先建立ExternalSorter物件，將資料插入到物件中。最後落盤（對每個Reducer生成一個數據檔案和一個索引檔案）。

3. ExternalSorter的insertAll()方法

def insertAll(records: Iterator[_ <: Product2[K, V]]): Unit = {
    // TODO: stop combining if we find that the reduction factor isn't high
    val shouldCombine = aggregator.isDefined

    if (shouldCombine) {
      // Combine values in-memory first using our AppendOnlyMap
      val mergeValue = aggregator.get.mergeValue
      val createCombiner = aggregator.get.createCombiner
      var kv: Product2[K, V] = null
      val update = (hadValue: Boolean, oldValue: C) => {
        if (hadValue) mergeValue(oldValue, kv._2) else createCombiner(kv._2)
      }
      while (records.hasNext) {
        addElementsRead()
        kv = records.next()
        map.changeValue((getPartition(kv._1), kv._1), update)
        maybeSpillCollection(usingMap = true)
      }
    } else if (bypassMergeSort) {
      // SPARK-4479: Also bypass buffering if merge sort is bypassed to avoid defensive copies
      if (records.hasNext) {
        spillToPartitionFiles(
          WritablePartitionedIterator.fromIterator(records.map { kv =>
            ((getPartition(kv._1), kv._1), kv._2.asInstanceOf[C])
          })
        )
      }
    } else {
      // Stick values into our buffer
      while (records.hasNext) {
        addElementsRead()
        val kv = records.next()
        buffer.insert(getPartition(kv._1), kv._1, kv._2.asInstanceOf[C])
        maybeSpillCollection(usingMap = false)
      }
    }
  }

ExternalSorter裡的存放資料的結構是PartitionedAppendOnlyMap物件。每寫一條資料記錄，都會呼叫maybeSpillCollection()方法來檢查是否需要spill。

4. ExternalSorter的maybeSpillCollection()方法

  private def maybeSpillCollection(usingMap: Boolean): Unit = {
    if (!spillingEnabled) {
      return
    }

    if (usingMap) {
      if (maybeSpill(map, map.estimateSize())) {
        map = new PartitionedAppendOnlyMap[K, C]
      }
    } else {
      if (maybeSpill(buffer, buffer.estimateSize())) {
        buffer = if (useSerializedPairBuffer) {
          new PartitionedSerializedPairBuffer[K, C](metaInitialRecords, kvChunkSize, serInstance)
        } else {
          new PartitionedPairBuffer[K, C]
        }
      }
    }
  }

estimateSize()是來估算PartitionedAppendOnlyMap物件佔用的記憶體空間，估算的頻率指數增長（為了控制估算函式的耗時）。

Spark shuffle write過程

1. ShuffleMapTask的runTask()方法 override def runTask(context: TaskContext): MapStatus = { // Deserialize the RDD using the broadcast va

[spark] Shuffle Write解析 (Sort Based Shuffle)

本文基於 Spark 2.1 進行解析前言從 Spark 2.0 開始移除了Hash Based Shuffle，想要了解可參考Shuffle 過程，本文將講解 Sort Based Shuffle。 ShuffleMapTask的結果（S

Spark Shuffle模組——Suffle Read過程分析

Spark Shuffle Read呼叫棧如下： 1. org.apache.spark.rdd.ShuffledRDD#compute() 2. org.apache.spark.shuffle.ShuffleManager#getReader()

spark中shuffle的過程------不看你後悔

Spark大會上，所有的演講嘉賓都認為shuffle是最影響效能的地方，但是又無可奈何。之前去百度面試hadoop的時候，也被問到了這個問題，直接回答了不知道。這篇文章主要是沿著下面幾個問題來開展： 1、shuffle過程的劃分？ 2、shuffle的中間結果如何

Spark Shuffle過程分析

MapReduce的sort-based shuffle 之前我們提到了MapReduce的Shuffle方式，Spark Shuffle雖然採取了和MapReduce完全不一樣的機制，但深層的原理還是有相同的地方的。所以，為了更好地理解Spark Shuff

spark原始碼閱讀--shuffle讀過程原始碼分析

shuffle讀過程原始碼分析上一篇中，我們分析了shuffle在map階段的寫過程。簡單回顧一下，主要是將ShuffleMapTask計算的結果資料在記憶體中按照分割槽和key進行排序，過程中由於記憶體限制會溢寫出多個磁碟檔案，最後會對所有的檔案和記憶體中剩餘的資料進行歸併排序並溢寫到一個檔案中，同時會記

Spark Shuffle（二）Executor、Driver之間Shuffle結果消息傳遞、追蹤(轉載)

red free 只需要 sub rem 直接 nod 包含著 des 1. 前言在博客裏介紹了ShuffleWrite關於shuffleMapTask如何運行，輸出Shuffle結果到Shuffle_shuffleId_mapId_0.data數據文件中，每個execu

Spark Shuffle 中 JVM 內存使用及配置內幕詳情

數據緩存案例 part png 配置 4條 resources CP 考題本課主題 JVM 內存使用架構剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 計算內存使用案例 Spark Un

自制Spark安裝詳細過程（含Scala）

推薦spark安裝連結http://blog.csdn.net/weixin_36394852/article/details/76030317 一、scala下載安裝與配置 1.下載 &n

spark-shuffle分析

前言 shuffle是分散式計算系統中最重要的一部分，spark和mapreduce的shuffle的大體思路類似，在實現上有一些區分。Spark提供了外掛式的介面，使用者可以通過繼承ShuffleManager來自定義，並通過`spark.shuffle.manager`來宣告自定義的ShuffleMan

大資料基礎之Spark（1）Spark Submit即Spark任務提交過程

Spark版本2.1.1 一 Spark Submit本地解析 1.1 現象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1

Spark學習之Spark Shuffle

文章目錄一、什麼是Spark Shuffle？二、HashShuffle執行原理三、Shuffle可能面臨的問題？四、如何優化解決問題？五、SortShuffle執行原理一、什麼是Spark Shuffle？ 1

Spark Shuffle原理和Shuffle的問題解決和優化

摘要： 1 shuffle原理　　1.1 mapreduce的shuffle原理　　　　1.1.1 map task端操作　　　　1.1.2 reduce task端操作　　 1.2 spark現在的SortShuffleManager 2 Shuffle操作

第三天 -- Spark shuffle -- DAG -- 廣播變數 -- 二次排序

第三天 – Spark shuffle – DAG – 廣播變數 – 二次排序文章目錄第三天 -- Spark shuffle -- DAG -- 廣播變數 -- 二次排序一、Spark shuffle

Spark中的Spark Shuffle詳解(多看幾遍)

Shuffle簡介 Shuffle描述著資料從map task輸出到reduce task輸入的這段過程。shuffle是連線Map和Reduce之間的橋樑，Map的輸出要用到Reduce中必須經過shuffle這個環節，shuffle的效能高低直接影響了整個程式的效能和吞吐量。因為在分散式情況

Spark任務執行過程簡介

--executor-memory 每一個executor使用的記憶體大小 --total-executor-cores 整個application使用的核數 1.提交一個spark程式到spark叢集,會產生哪些程序?

SparK Shuffle之SortShffleWriter

SparK Shuffle之SortShffleWriter SortShffleWriter的邏輯在write方法，檢視程式碼 /** Write a bunch of records to this task's output */ override

spark.shuffle調優

1.1.1 spark.shuffle.managerSpark1.2.0官方支援兩種方式的Shuffle，即Hash Based Shuffle和Sort Based Shuffle。其中在Spark 1.0之前僅支援Hash Based Shuffle。Spark 1.1的時候引入了

Spark shuffle原理和詳細圖解

shuffle 中Map任務產生的結果會根據所設定的partitioner演算法填充到當前執行任務所在機器的每個桶中。 Reduce任務啟動時時，會根據任務的ID，所依賴的Map任務ID以及MapS

圖解Spark Shuffle的發展歷程

一、Spark Hash Shuffle 基於Hash的Shuffle Write操作較為簡單，這種Shuffle方式中，Shuffle Map Task會根據下游生成的Partition個數來建立中間檔案來儲存對應的Partition資料。如下圖所示，下游生

Spark shuffle write過程

相關推薦