Spark算子之aggregateByKey詳解

阿新 • • 發佈：2018-10-27

all item bubuko 最大 name rest map com class

一、基本介紹

rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函數是初始值

3代表每次分完組之後的每個組的初始值。

seqFunc代表combine的聚合邏輯

每一個mapTask的結果的聚合成為combine

combFunc reduce端大聚合的邏輯

ps:aggregateByKey默認分組

二、源碼

三、代碼

from pyspark import SparkConf,SparkContext
from __builtin__ import str
conf = SparkConf().setMaster("local").setAppName(" 
AggregateByKey")
sc = SparkContext(conf = conf)

rdd = sc.parallelize([(1,1),(1,2),(2,1),(2,3),(2,4),(1,7)],2)

def f(index,items):
    print "partitionId:%d" %index
    for val in items:
        print val
    return items
    
rdd.mapPartitionsWithIndex(f, False).count()

def seqFunc(a,b):
    print  
"seqFunc:%s,%s" %(a,b)
    return max(a,b) #取最大值
def combFunc(a,b):
    print "combFunc:%s,%s" %(a ,b)
    return a + b #累加起來
‘‘‘
    aggregateByKey這個算子內部肯定有分組
‘‘‘
aggregateRDD = rdd.aggregateByKey(3, seqFunc, combFunc)
rest = aggregateRDD.collectAsMap()
for k,v in rest.items():
    print k,v

sc.stop()

四、詳細邏輯

技術分享圖片

PS：seqFunc函數 combine篇。

3是每個分組的最大值，所以把3傳進來，在combine函數中也就是seqFunc中第一次調用 3代表a,b即1,max(a,b)即3 第二次再調用則max(3.1)中的最大值3即輸入值，2即b值所以結果則為(1,3)

底下類似。combine函數調用的次數與分組內的數據個數一致。

combFunc函數 reduce聚合

在reduce端大聚合，拉完數據後也是先分組，然後再調用combFunc函數

五、結果

Spark算子之aggregateByKey詳解

all item bubuko 最大 name rest map com class 一、基本介紹 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函數是初始值 3代表每次分完組之後的每個組的初始值。 seqFunc代表combi

Spark運算元篇 --Spark運算元之aggregateByKey詳解

一。基本介紹 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函式是初始值 3代表每次分完組之後的每個組的初始值。 seqFunc代表combine

spark記錄（3）spark算子之Transformation

ace 使用 ble pan 寫入 1.2 插入 get .text 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1　map map十分容易理解，他是將源JavaRDD的一個一個元素的傳入call方法，並經過算

spark記錄（4）spark算子之Action

lac atm ide replace action ret 加載再次 col Action類算子也是一類算子（函數）叫做行動算子，如foreach,collect，count等。Transformations類算子是延遲執行，Action類算子是觸發執行。一個appli

IP地址和子網劃分學習筆記之《知識學習篇：子網劃分詳解》

子網掩碼 IP地址子網劃分在學習掌握了前面的IP地址和子網劃分之《進制計數》和IP地址和子網劃分之《IP地址詳解》這兩部分知識後，接下來將學習子網劃分。一、子網掩碼要學習子網劃分，首先就要必須知道子網掩碼，只有掌握了子網掩碼這部分內容，才能很好的理解和劃分子網。 1、子網掩碼介紹子網掩碼

IP地址和子網劃分學習筆記之《子網劃分詳解》

子網劃分子網掩碼 IP地址 VLSM 一，子網劃分概述 1、為什麽要劃分子網？ IPv4地址如果只使用有類（A、B、C類）來劃分，會造成大量的浪費或者不夠用，為了解決這個問題，可以在有類網絡的基礎上，通過對IP地址的主機號進行再劃分，把一部分劃入網絡號，就能劃分各種類型大小的網絡了。 2、I

零基礎入門大資料之spark中rdd部分運算元詳解

先前文章介紹過一些spark相關知識，本文繼續補充一些細節。我們知道，spark中一個重要的資料結構是rdd，這是一種並行集合的資料格式，大多數操作都是圍繞著rdd來的，rdd裡面擁有眾多的方法可以呼叫從而實現各種各樣的功能，那麼通常情況下我們讀入的資料來源並非rdd格式的，如何轉

大資料環境搭建之Spark分散式環境搭建步驟詳解

文章目錄環境準備安裝配置下載配置環境變數修改conf目錄下檔案複製程式到從結點啟動Spark叢集在bigdata01機器上啟動Spark

《深入理解Spark》之運算元詳解

XML Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

（原創）最小生成樹之Prim（普裏姆）算法+代碼詳解，最懂你的講解

class bsp 簡單相加置0 思路 cost 數組 print Prim算法（哈欠）在創建最小生成樹之前，讓我們回憶一下什麽是最小生成樹。最小生成樹即在一個待權值的圖（即網結構）中用一個七拐八繞的折線串連起所有的點，最小嘛，顧名思義，要權值相加起來最小，你當然可

javaweb之監聽器詳解

兩個 rec roman 虛擬銷毀 mar host swap 技術在servlet中定義了多種類型的監聽器，他們用於監聽事件源分別是servletContext,httpsession,servletrequest 這三個域對象。 servlet中監聽器主要有三類：

IO測試工具之fio詳解

沒有性能同時 rac 目前 code linux系統安裝 enc 目前主流的第三方IO測試工具有fio、iometer和Orion，這三種工具各有千秋。 fio在Linux系統下使用比較方便，iometer在window系統下使用比較方便，Orion是oracle的I

多媒體開發庫之 SDL 詳解

詳解 lang 模擬 llb 創建 mac os 視頻內置 bsp SDL 簡介 SDL（Simple DirectMedia Layer）是一套開放源代碼的跨平臺多媒體開發庫，使用C語言寫成。SDL提供了數種控制圖像、聲音、輸出入的函數，讓開發者只要用相同或是相似的代碼

Hadoop之WordCount詳解

ride 開始 zookeepe ati 程序 form 數組 -c 狀態花了好長時間查找資料理解、學習、總結這應該是一篇比較全面的MapReduce之WordCount文章了耐心看下去 1，創建本地文件在hadoop-2.6.0文件夾下創建一個文件夾data，在其

Vue 進階教程之：詳解 v-model

com 方式事件變化復習簡寫 mage fine 需要分享 Vue 官網教程上關於 v-model 的講解不是十分的詳細，寫這篇文章的目的就是詳細的剖析一下，並介紹 Vue 2.2 v-model改進的地方，然後穿插的再說點 Vue 的小知識。在 Vue 中，

CEF3開發者系列之CefEnableHighDPISupport詳解

html use enable val 情況 immediate zoom brush 放大在CEF3中，CefEnableHighDPISupport()這個接口函數在使用時一般不為人所註意，但是如果稍有不慎，會造成打開的網頁不能填滿窗口的問題。如果是需要flash插件

Linux性能監控命令之lsof詳解

轉換 device symbol 能夠基礎打開 init 可執行文件 ive 1. lsof 命令介紹 lsof(list open files)是一個列出當前系統打開文件的工具。在linux環境下，任何事物都以文件的形式存在，通過文件不僅僅可以訪問常規數據，還可以訪問

Linux命令之CP詳解

linux命令之cp詳解Linux命令之CP詳解嘿嘿，又一周過去了，大家過的怎麽樣呢，在這一周時間裏，小編可是又學到不少新知識呢。今天呢，小編就和大家分享一下Linux中我們常用的CP的命令，這裏的cp可是copy的簡寫噢。（容我嘚瑟一下）學過linux的都知道，在我們操作的過程中，我們常常會用到cp這個命

PHP利用二叉堆實現TopK-算法的方法詳解

相對 baidu 文本文件過時 border 數據 http pan set 前言在以往工作或者面試的時候常會碰到一個問題，如何實現海量TopN，就是在一個非常大的結果集裏面快速找到最大的前10或前100個數，同時要保證內存和速度的效率，我們可能第一個想法就是利用排序

aNDROID之MEDIapLaYER詳解

iap music media 詳解 list oid aid 5% layer %E8%BD%AC%E8%BD%BD%E4%B8%80%E4%B8%AA%E5%9B%BE%E7%89%87%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E7%B1

Spark算子之aggregateByKey詳解

相關推薦