Spark的另一個核心的奧祕：任務

阿新 • • 發佈：2019-09-13

任務（Task）是Spark的最小執行單元，Spark任務是通過Task來執行的。Spark的任務體系是最神祕也是最容易學習的核心模組，任務執行機制點透了那麼Spark也就瞭解的更深入了。Task是任務體系的一個抽象類，有兩個子類：ResultTask和ShuffleMapTask，這三個類構成了任務系統的核心。

ResultTask好理解，就是直接執行Task中RDD某個分割槽的資料操作，還記得之前的RDD的結構嗎，裡面有一個compute函式，任務就是執行compute函式。

ShuffleMapTask也是執行Task中RDD某個分割槽的資料操作，所不同的是輸出結果的儲存方式不一樣。ShuffleMapTask會把資料操作的結果儲存到類似BlockManager的全域性儲存中，ShuffleMapTask的結果可供下一個Task作為輸入資料。為什麼分兩種呢？換個說法就很清楚了，ResultTask對應窄依賴的RDD，ShuffleMapTask對應寬依賴的RDD操作（如全連線操作）。ShuffleMapTask需要對資料的讀寫進行特殊的處理，要用BlockManager來輸出資料集的；同樣，ShuffleMapTask的子RDD的讀取資料集也是從BlockManager來的。

ResultTask和ShuffleMapTask的類的程式碼非常簡單，就是重寫runTask方法。

Task通過Task描述物件來反序列化，獲得RDD和分割槽等物件後，建立TaskContextImpl作為任務上下文，然後執行run方法執行任務，讀取RDD中的迭代器資料並處理資料。run方法實際是呼叫子類重寫的runTask方法具體執行的。而runTask方法在ResultTask和ShuffleMapTask中被重寫。

1、 ResultTask

直接結果任務，這類任務執行完也就完了，其資料不需要被下一個任務再次處理。可以任務是終結者任務。

重寫runTask方法。runTask方法的核心程式碼如下：

override def runTask(context: TaskContext): U = { 
 val ser = SparkEnv.get.closureSerializer.newInstance()
 val (rdd, func) = ser.deserialize[(RDD[T], (TaskContext, Iterator[T]) => U)](
 ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader) 
 func(context, rdd.iterator(partition, context))
 }

反序列化得到RDD中定義的資料處理函式func，func符合格式：

(TaskContext, Iterator[T]) => U

然後執行：

func(context, rdd.iterator(partition, context))

這方法的意思就是對rdd分割槽的資料迭代器輪詢，每次取出一條資料執行func操作。ResultTask的重寫部分就是這麼簡單。

2、ShuffleMapTask

ShuffleMap格式的任務，這類任務的執行結果是要被下一個RDD消費的，因此輸出資料需要寫出到Shuffle區域。Shuffle區域會在分割槽資料管理中詳細的介紹。

重寫runTask方法。runTask方法的核心程式碼如下：

override def runTask(context: TaskContext): MapStatus = {
 val ser = SparkEnv.get.closureSerializer.newInstance()
 val rddAndDep = ser.deserialize[(RDD[_], ShuffleDependency[_, _, _])](
 ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)
 val rdd = rddAndDep._1
 val dep = rddAndDep._2
 dep.shuffleWriterProcessor.write(rdd, dep, partitionId, context, partition)
 }

前半段和Result類似，反序列化得到RDD和分割槽，以及依賴分割槽dep。然後迭代rdd中的資料並寫入到依賴dep的shuffle區域中。

Spark的任務的執行過程這裡就說的很明白了，理解了這點，如果再搞清楚了Spark如何分配任務到不同機器上執行的過程，那麼可以說Spark的精髓也就掌握的清清楚楚了！是

Spark的另一個核心的奧祕：任務

1、 ResultTask

2、ShuffleMapTask

Spark的另一個核心的奧祕：任務

轉：【Java並發編程】之十四：圖文講述同步的另一個重要功能：內存可見性

C++ 基礎（五）使用vs2015封裝c++生成.dll檔案、.lib檔案、.h檔案後，給另一個工程使用：使用前，需配置標頭檔案（.h）靜態庫（.lib）和動態庫（.dll ）專案屬性

虛擬化的另一個用例：真正的VPN

從原理上理解如何由震源機制一個節面的解：strike,dip,rake可以求出另一個節面的解

SQL兩表之間：根據一個表的字段更新另一個表的字段

2.2.1 傳播行為當事務方法被另一個事務方法調用時，必須指定事務應該如何傳播。例如：方法可能繼續在現有事務中運行，也可能開啟一個新事務，並在自己的事務中運行。

Java 練習：讀取該文件內容，並按照自然順序排序後輸出到另一個文件中

多租戶：在Oracle12.2中從Non-CDB遷移到PDB，從PDB遷移另一個CDB中

SHELL腳本：將新增的行添加到另一個文件中

Spark核心RDD：combineByKey函數詳解

SQL技巧兩則：選擇一個表的字段插入另一個表，根據其它表的字段更新本表內容

練習七：列表復制（將一個列表的數據復制到另一個列表中）

大資料篇：Spark入門第一個Spark應用程式詳解：WordCount

PHP：將一個字元創插入到另一個字串的指定位置

油價另一個利空：電動車來勢洶洶比想象中更猛

程式設計5：用一個棧實現另一個棧的排序

亞馬遜Corretto：另一個OpenJDK

另一個應用時代崛起：見證PWA書寫歷史

es：實現查詢某個欄位為固定值，另一個欄位必須不能存在

Spark的另一個核心的奧祕：任務

1、 ResultTask

2、ShuffleMapTask

相關推薦