結合Spark原始碼分析, combineByKey, aggregateByKey, foldByKey, reduceByKey

阿新 • • 發佈：2019-02-17

combineByKey

def combineByKey[C](
  createCombiner: V => C,
  mergeValue: (C, V) => C,
  mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {
combineByKeyWithClassTag(createCombiner, mergeValue, mergeCombiners)(null)
}

createCombiner：當combineByKey第一次遇到值為k的Key時，呼叫createCombiner函式，將v轉換為c
mergeValue：combineByKey不是第一次遇到值為k的Key時，呼叫mergeValue函式，將v累加到c中
mergeCombiners：將兩個c，合併成一個

// 例項
SparkConf conf = new SparkConf().setAppName("test").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf); 

List<Tuple2<Integer, String>> list = new ArrayList<>();

list 
.add(new Tuple2<>(1, "www"));
list.add(new Tuple2<>(1, "iteblog"));
list.add(new Tuple2<>(1, "com"));
list.add(new Tuple2<>(2, "bbs"));
list.add(new Tuple2<>(2, "iteblog"));
list.add(new Tuple2<>(2, "com"));
list.add(new Tuple2<>(3, "good"));

JavaPairRDD< 
Integer, String> data = sc.parallelizePairs(list);

JavaPairRDD<Integer, List<String>> result = data.combineByKey(v -> {
    ArrayList<String> strings = new ArrayList<>();
    strings.add(v);
    return strings;
}, (c, v) -> {
    c.add(v);
    return c;
}, (c1, c2) -> {
    c1.addAll(c2);
    return c1;
});

result.collect().forEach(System.out::println);

aggregateByKey

def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner)(seqOp: (U, V) => U,
  combOp: (U, U) => U): RDD[(K, U)] = self.withScope {

// 中間程式碼省略，主要看最後一個，呼叫combineByKey

val cleanedSeqOp = self.context.clean(seqOp)
// seqOp，同時是，createCombiner，mergeValue。而combOp是mergeCombiners
combineByKeyWithClassTag[U]((v: V) => cleanedSeqOp(createZero(), v),
  cleanedSeqOp, combOp, partitioner)
}

createCombiner：cleanedSeqOp(createZero(), v)是createCombiner, 也就是傳入的seqOp函式, 只不過其中一個值是傳入的zeroValue
mergeValue：seqOp函式同樣是mergeValue, createCombiner和mergeValue函式相同是aggregateByKey函式的關鍵
mergeCombiners：combOp函式

因此, 當createCombiner和mergeValue函式的操作相同, aggregateByKey更為合適

// 例子與combineByKey相同, 只是改用aggregateByKey實現
SparkConf conf = new SparkConf().setAppName("test").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);

List<Tuple2<Integer, String>> list = new ArrayList<>();

list.add(new Tuple2<>(1, "www"));
list.add(new Tuple2<>(1, "iteblog"));
list.add(new Tuple2<>(1, "com"));
list.add(new Tuple2<>(2, "bbs"));
list.add(new Tuple2<>(2, "iteblog"));
list.add(new Tuple2<>(2, "com"));
list.add(new Tuple2<>(3, "good"));

JavaPairRDD<Integer, String> data = sc.parallelizePairs(list);

JavaPairRDD<Integer, List<String>> result = data.aggregateByKey(new ArrayList<String>(), (c, v) -> {
    c.add(v);
    return c;
}, (Function2<List<String>, List<String>, List<String>>) (c1, c2) -> {
    c1.addAll(c2);
    return c1;
});

result.collect().forEach(System.out::println);

foldByKey

def foldByKey(
  zeroValue: V,
  partitioner: Partitioner)(func: (V, V) => V): RDD[(K, V)] = self.withScope {

// 中間程式碼省略，主要看最後一個，呼叫combineByKey

val cleanedFunc = self.context.clean(func)
// 傳入的func函式，同時是，createCombiner，mergeValue，mergeCombiners
// createCombiner函式傳入了零值，首次遇到一個key時，根據零值進行初始化
combineByKeyWithClassTag[V]((v: V) => cleanedFunc(createZero(), v),
  cleanedFunc, cleanedFunc, partitioner)
}

createCombiner：cleanedFunc(createZero(), v)是createCombiner, 也就是func函式, 只不過其中一個值是傳入的zeroValue
mergeValue, mergeCombiners：func函式也是mergeValue和 mergeCombiners

當createCombiner，mergeValue和mergeCombiners函式操作都相同, 唯獨需要一個zeroValue時, 適用

// 根據Key把Value相加, 但是不從0開始, 設定初始值為100
val conf = new SparkConf().setAppName("test").setMaster("local")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)

var rdd = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))

rdd.foldByKey(100)(_+_).collect.foreach(println)

reduceByKey

def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = self.withScope {
  combineByKeyWithClassTag[V]((v: V) => v, func, func, partitioner)
}

createCombiner：與foldByKey相比, reduceByKey沒有初始值, createCombiner也沒有呼叫func函式, 而是直接將引數作為返回值返回了,
mergeValue, mergeCombiners：func函式同時是mergeValue和 mergeCombiners

當不需要createCombiner，且mergeValue和mergeCombiners函式操作都相同時, 適用

val conf = new SparkConf().setAppName("test").setMaster("local")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)

var rdd = sc.makeRDD(Array(("A", 0), ("A", 2), ("B", 1), ("B", 2), ("C", 1)))

rdd.reduceByKey(_ + _).collect.foreach(println)

總結

這幾個運算元, 核心就要弄明白combineByKey, 其他三個都是呼叫它. 上文主要也是從combingByKey傳入的三個函式的角度在分析.

而在實際運用中, 最先要考慮的應該是型別. combingByKey和aggregateByKey輸入跟輸出的型別可以不一致, 而foldByKey和reduceByKey不行. 型別確定後再根據自己的業務選擇最簡潔的運算元.

結合Spark原始碼分析, combineByKey, aggregateByKey, foldByKey, reduceByKey

combineByKey def combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)

Spark原始碼分析之Spark Shell（上）

https://www.cnblogs.com/xing901022/p/6412619.html 文中分析的spark版本為apache的spark-2.1.0-bin-hadoop2.7。 bin目錄結構： -rwxr-xr-x. 1 bigdata bigdata 1089 Dec

WebSocket學習——結合OkHttp原始碼分析

轉自：https://www.jianshu.com/p/ba0f45aa7457 前言最近公司有專案需要用WebSocket完成及時通訊的需求，這裡來學習一下。 WebScoket簡介在以前的web應用中，雙向通訊機制往往藉助輪詢或是長輪詢來實現，但是這兩種方式都會或多或少的造

SPARK 原始碼分析技術分享(帶bilibili視訊)

SPARK 原始碼分析技術分享 (帶bilibili視訊) 【本站點正在持續更新中…2018-12-05…】 SPARK 1.6.0-cdh5.15.0 Hadoop 2.6.0-cdh5.15.0 spark-scala-maven 微信(技術交流) :

Spark 原始碼分析之ShuffleMapTask處理

Spark 原始碼分析之ShuffleMapTask處理更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com

Spark原始碼分析之ResultTask處理

Spark原始碼分析之ResultTask處理更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/open

Spark原始碼分析之ShuffleMapTask處理

Spark原始碼分析之ShuffleMapTask處理更多資源 SPARK 原始碼分析技術分享(bilibilid視訊彙總套裝視訊): https://www.bilibili.com/video/av37442139/ github: https://github.com/opensour

spark原始碼分析--事件匯流排LiveListenerBus

spark事件匯流排的核心是LiveListenerBus，其內部維護了多個AsyncEventQueue佇列用於儲存和分發SparkListenerEvent事件。 spark事件匯流排整體思想是生產消費者模式，訊息事件實現了先進先出和非同步投遞，同時將事件

Spark 原始碼分析之ShuffleMapTask記憶體資料Spill和合並

前置條件 Hadoop版本: Hadoop 2.6.0-cdh5.15.0 Spark版本: SPARK 1.6.0-cdh5.15.0 JDK.1.8.0_191 scala2.10.7 技能標籤 Spark ShuffleMapTask 記憶體中的資

spark原始碼分析之BypassMergeSortShuffleWriter

概述 spark1.6以後，取消了基於hash的shuffle，只剩下基於sort的shuffle。現在只存在以下三種shuffle writer： BypassMergeSortShuffleWriter UnsafeShuffleWriter SortShuffl

spark原始碼分析之ShuffleExternalSorter

概述 ShuffleExternalSorter是專門用於sort-based shuffle的external sorter。傳入的record會被追加到data page。當所有的record都已經插入該sorter時，或者當前執行緒的shuffle memory已

spark原始碼分析之TaskMemoryManager

概述 TaskMemoryManager用於管理每個task分配的記憶體。在off-heap記憶體模式中，可以用64-bit的地址來表示記憶體地址。在on-heap記憶體模式中，通過base object的引用和該物件中64-bit 的偏移量來表示記憶體地址。當我

spark原始碼分析之NioBufferedFileInputStream

NioBufferedFileInputStream是spark實現的一種新的位元組流，它既支援內部緩衝區，又支援nio讀取檔案，使用direct buffer避免java堆與native記憶體之間的資料拷貝。在Java jdk中沒有可供直接使用的具備以上2個功能的位元組流。

spark原始碼分析之UnsafeShuffleWriter

概述 SortShuffleManager會判斷在滿足以下條件時呼叫UnsafeShuffleWriter，否則降級為使用SortShuffleWriter： Serializer支援relocation。這是指Serializer可以對已經序列化的物件進行排序，這種排

spark原始碼分析之ReadAheadInputStream

概述 ReadAheadInputStream實現了從當前buffer讀取的data耗盡時，切換到另外一個buffer讀取資料，並啟動任務從底層輸入流非同步預讀data，放入耗盡的buffer中。它通過2個buffer來完成——active buffer和read ah

Spark原始碼分析之三：Stage劃分

Stage劃分的大體流程如下圖所示：前面提到，對於JobSubmitted事件，我們通過呼叫DAGScheduler的handleJobSubmitted()方法來處理。那麼我們先來看下程式碼： // 處理Job提交的函式 pri

spark原始碼分析之Master原始碼主備切換機制分析

Master原始碼分析之主備切換機制 1.當選為leader之後的操作 //ElectedLeader 當選leader case ElectedLeader => {

Spark原始碼分析系列（目錄）

記錄自己學習研究 Spark 的探索過程，為後續總結奠定基礎。本文程式碼研究以 Spark 2.3.0 原始碼為基準，如果看本文，請閱讀時，下載對應的 Spark 版本。圖1 伯克利的資料分析軟體棧BDAS（Berkeley Data Analytics Stack）這裡要先說BDAS（伯克利

Spark原始碼分析之Sort-Based Shuffle讀寫流程

override def read(): Iterator[Product2[K, C]] = { // 構造ShuffleBlockFetcherIterator，一個迭代器，它獲取多個塊，對於本地塊，從本地讀取 // 對於遠端塊，通過遠端方法讀取val blockFetcherItr = new

Spark原始碼分析-spark叢集啟動及任務執行

注：因為基於Akka的Actor的RPC版本相對容易理解一點，本文分析使用的Spark版本如下： <dependency> <groupId>org.apache.spark</groupId> <

結合Spark原始碼分析, combineByKey, aggregateByKey, foldByKey, reduceByKey

combineByKey

aggregateByKey

foldByKey

reduceByKey

總結

相關推薦