spark原始碼action系列-collect

阿新 • • 發佈：2019-01-11

RDD.collect的操作

collect操作,在最後的ResultTask.runTask中,執行的function的操作為下面程式碼.

由於對ResultTask的runTask這個函式的返回值就是這個runTask函式在執行完成RDD傳入的function後的返回值.這裡要說明下如果task的結果超過了spark.driver.maxResultSize配置的最大值時,預設是1G,直接對task的結果進行丟掉,不處理,

defcollect(): Array[T] = withScope {val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray

)

這個操作把所有的task返回的array進行連線,合併到一個array中進行返回. Array.concat(results: _*)}

用於在driver端處理各個Task的結果返回的resultHandler函式,這個函式就是把對應的task的結果直接放到driver端接收資料的一個數組中.

valresults = new Array[U](partitions.size)

(index, res) => results(index) = res

在這個操作中,是直接把每個partition中Iterator的結果轉換成一個array.上面的紅色部分((iter: Iterator[T]) => iter.toArray

從上面的程式碼中可以看出來,針對一個rdd的collect的操作是把當前的rdd中所有的partition中的資料集的iterator直接轉換成一個array[T],這個array也是對應此partition的返回值,使用collect時要確保每個task的返回的資料的大小,同時要保證所有的task中返回的資料的大小不能超過1GB.

在driver端接收到每一個task返回的資料集時,每個task返回的是這個task中所有的資料集的陣列,通過在driver端定義的一個results陣列,這個陣列的長度就是partition的個數,每個task的返回結果儲存到這個對應的index位置上((index, res) => results(index) = res

),最後在把這個二維的資料進行concat操作( Array.concat(results: _*)),把所有的資料集合併到一個數組中.這個陣列就是執行collect的最終的返回值.

spark原始碼action系列-collect

RDD.collect的操作

spark原始碼action系列-collect

spark原始碼action系列-foreach與foreachPartition

Spark原始碼分析系列（目錄）

Spark 原始碼分析系列

spark源代碼action系列-foreach與foreachPartition

Spark原始碼系列:RDD repartition、coalesce 對比

Spark原始碼系列（九）Spark SQL初體驗之解析過程詳解

Spark入門實戰系列--2.Spark編譯與部署（中）--Hadoop編譯安裝

spark源碼系列之累加器實現機制及自定義累加器

Spark原始碼分析之Spark Shell（上）

編譯spark原始碼的方法，及編譯、案例測試問題總結

解決Spark Arrays.toString(Dataset.collect())報錯

zookeeper原始碼閱讀系列

Spark 原始碼簡單跟蹤

CAS原始碼追蹤系列一：Filter的初始化

Java| Java 7 原始碼學習系列--String

[Mybatis原始碼分析系列]]03 TypeAliasRegistry

[Mybatis原始碼分析系列] 01 解析mybatis-config.xml配製檔案並返回SqlSessionFactory的類SqlSessionFactoryBuilder

[MyBatis原始碼分析系列] ResolverUtil

Dubbo 原始碼分析系列之三 —— 架構原理

spark原始碼action系列-collect

RDD.collect的操作

相關推薦