講明白combineByKey()運算元，不是談原始碼

阿新 • • 發佈：2018-12-11

簡單介紹

combineByKey()是最通用的對key-value型rdd進行聚集操作的聚集函式（aggregation function）。類似於aggregate()，combineByKey()允許使用者返回值的型別與輸入不一致。

其定義如下，我們可以根據這個形式來分別定義createCombiner、mergeValue和mergeCombiners三個函式：

def combineByKey[C](
　　createCombiner: V => C, ##A
　　mergeValue: (C, V) => C, ##B
　　mergeCombiners: (C, C) => C,##C
　　partitioner: Partitioner, 　　
　　mapSideCombine: Boolean = true,
　　serializer: Serializer = null

)

自定義combineByKey

以實現一個計算平均值的功能為例來分別說明createCombiner、mergeValue和mergeCombiners三個函式的作用和定義方法。

##A createCombiner(value)

createCombiner: V => C ，這個函式把當前rdd中的值（value）作為引數，此時我們可以對其做些附加操作(型別轉換)並把它返回 (這一步類似於初始化操作，分割槽內操作)

def createCombiner(value):

　　 (value, 1)

##B mergeValue(acc, value)

mergeValue: (C, V) => C，該函式把元素V合併到之前的元素C(createCombiner)上 (每個分割槽內合併)

def mergeValue(acc, value):
# 注意，這裡的acc即為createCombiner產生的C。
# 這裡，用acc[0]表明為acc這個元組中的第一個元素，在scala中acc._1表示
　　(acc[0]+value, acc[1]+1)
###C mergeCombiners: (acc1, acc2)

mergeCombiners: (C, C) => C，該函式把2個元素C合併 (此函式作用範圍在rdd的不同分割槽間內，跨分割槽合併

)

def mergeCombiners(acc1, acc2):

# 注意，到這一步，表明這個rdd的每條資料都已經被###A和###B捕獲匹配完畢

　　 (acc1[0]+acc2[0], acc1[1]+acc2[1])

案例：

如圖，有兩個分割槽，key-value（類別-數量）形式也清楚，我們想知道coffee的平均數量和panda的平均數量。以scala形式寫法如下：

val init_data = Array(("coffee", 1), ("coffee", 2), ("panda", 3), ("coffee", 9))
val data = sc.parallelize(init_data) # 兩個分割槽
type MVType = (Int, Int) //定義一個元組型別
data.combineByKey(
　　　score => (1, score), # createCombiner函式
　　　(c: MVType, newScore) => (c._1 + 1, c._2 + newScore), # mergeValue函式
　　　(c1: MVType, c2: MVType) => (c1._1 + c2._1, c1._2 + c2._2) # mergeCombiners函式
).map { case (key, value) => (key, value._2/ value._1) }.map(println(_))

分析：

Partition 1 trace：
(coffee, 1) => new key
accumulators[coffee] = createCombiner(1)
得到：(coffee, (1, 1))
(coffee, 2) => existing key
accumulators[coffee] = mergeValue(accumulators[coffee], 2)
得到：(coffee, (2, 3))
顯然(panda, 3) => new key，呼叫createCombiner方法。
得到：(panda, (1, 3))

Partition 2 trace：
(coffee, 9) => new key
accumulators[coffee] = createCombiner(9)
得到：(coffee, (1, 9))

接下來，mergeCombiners來合併分割槽：

Merge Partitions：
mergeCombiners(partition1.accumulators[coffee], partition2.accumulators[coffee])
得到：(coffee, (3,12))

---------------------------------------------細心看反覆看不然是假懂--------------------------------

講明白combineByKey()運算元，不是談原始碼

簡單介紹

自定義combineByKey

講明白combineByKey()運算元，不是談原始碼

2.4G天線設計，不談原理和規範，直接懟PCB設計

mybatis generator為實體類生成自定義註釋（讀取資料庫欄位的註釋新增到實體類，不修改原始碼）

spring boot整合UEditor，不改原始碼，真實有效

拋開雙11不談，為什麽我現在購物對京東和天貓成兩極態度？

首先不談C語言，我們先來談談編程工具

project師聊AI芯片—談算法不談智能，談實現不談芯片！

丹麥出品的國際通用最新IQ測試flash版，天才140分(測智商的，不明白的，就太XX了)

什麼是寬窄依賴，及特殊join運算元，join時何時產生shuffle，何時不產生shuffle

這次不講深奧的理論，我們一起看小說學敏捷

今天我們不談企業，只談電影！

1024，不講技術，來一套程式設計師續命操~

終於有人把雲端計算極速賽車原始碼出售、大資料和人工智慧講明白了！

不談架構，看看如何從程式碼層面優化系統性能！

RN使用google瀏覽器斷點除錯,沒有原始碼，不能斷點除錯

順序不能改變的運算元，是否跟時間有關

比爾·蓋茨都去講計算機課程了，我還有什麼理由不來學程式設計

說寫做一致—也談“寫清楚、講明白”

貝葉斯分類（這個講的比較清晰，一看就明白）

eclipse中進行java程式設計時，CTRL+左鍵時，看不到原始碼的解決方法。

講明白combineByKey()運算元，不是談原始碼

簡單介紹

自定義combineByKey

相關推薦