Spark運算元篇 --Spark運算元之aggregateByKey詳解

阿新 • • 發佈：2019-02-12

一。基本介紹

rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函式是初始值

3代表每次分完組之後的每個組的初始值。

seqFunc代表combine的聚合邏輯

每一個mapTask的結果的聚合成為combine

combFunc reduce端大聚合的邏輯

ps:aggregateByKey預設分組

二。程式碼

from pyspark import SparkConf,SparkContext
from __builtin__ import str
conf = SparkConf().setMaster("local").setAppName(" 
AggregateByKey")
sc = SparkContext(conf = conf)

rdd = sc.parallelize([(1,1),(1,2),(2,1),(2,3),(2,4),(1,7)],2)

def f(index,items):
    print "partitionId:%d" %index
    for val in items:
        print val
    return items
    
rdd.mapPartitionsWithIndex(f, False).count()


def seqFunc(a,b):
    print 
 "seqFunc:%s,%s" %(a,b)
    return max(a,b) #取最大值
def combFunc(a,b):
    print "combFunc:%s,%s" %(a ,b)
    return a + b #累加起來
'''
    aggregateByKey這個運算元內部肯定有分組
'''
aggregateRDD = rdd.aggregateByKey(3, seqFunc, combFunc)
rest = aggregateRDD.collectAsMap()
for k,v in rest.items():
    print k,v

sc.stop()

三。詳細邏輯

PS：

seqFunc函式 combine篇。

3是每個分組的最大值，所以把3傳進來，在combine函式中也就是seqFunc中第一次呼叫 3代表a,b即1,max(a,b)即3 第二次再呼叫則max(3.1)中的最大值3即輸入值，2即b值所以結果則為(1,3)

底下類似。combine函式呼叫的次數與分組內的資料個數一致。

combFunc函式 reduce聚合

在reduce端大聚合，拉完資料後也是先分組，然後再呼叫combFunc函式

四。結果

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

Spark運算元篇 --Spark運算元之aggregateByKey詳解

一。基本介紹 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函式是初始值 3代表每次分完組之後的每個組的初始值。 seqFunc代表combine

Spark算子之aggregateByKey詳解

all item bubuko 最大 name rest map com class 一、基本介紹 rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函數是初始值 3代表每次分完組之後的每個組的初始值。 seqFunc代表combi

關於spark RDD trans action運算元、lineage、寬窄依賴詳解

這篇文章想從spark當初設計時為何提出RDD概念，相對於hadoop，RDD真的能給spark帶來何等優勢。之前本想開篇是想總體介紹spark，以及環境搭建過程，但個人感覺RDD更為重要鋪墊在hadoop中一個獨立的計算，例如在一個迭代過程中，除可複製的檔案系統（HDFS）

FineBI學習系列之FineBI與Spark數據連接（圖文詳解）

gpo 編碼轉換 nload -s div 語言分享圖片 bre con 不多說，直接上幹貨！　　這是來自FineBI官網提供的幫助文檔 http://help.finebi.com/http://help.finebi.com/doc-vie

大資料學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive叢集搭建圖文詳解

引言在之前的大資料學習系列中，搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話，我開始學習大資料的時候，搭建的就是叢集，並不是單機模式和偽分散式。至於為什麼先寫單機的搭建，是因為作為個人學習的話，單機已足以，好吧，

【Spark】篇---Spark中yarn模式兩種提交任務方式

方式 div -s and clas client 命令 yarn 模式一、前述 Spark可以和Yarn整合，將Application提交到Yarn上運行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體 1、yarn

IP地址和子網劃分學習筆記之《知識學習篇：子網劃分詳解》

子網掩碼 IP地址子網劃分在學習掌握了前面的IP地址和子網劃分之《進制計數》和IP地址和子網劃分之《IP地址詳解》這兩部分知識後，接下來將學習子網劃分。一、子網掩碼要學習子網劃分，首先就要必須知道子網掩碼，只有掌握了子網掩碼這部分內容，才能很好的理解和劃分子網。 1、子網掩碼介紹子網掩碼

Spark核心RDD：combineByKey函數詳解

sta 3.0 vbscript map ner 初始化 partition 得到 new https://blog.csdn.net/jiangpeng59/article/details/52538254 為什麽單獨講解combineByKey？因為comb

python之路第二篇數據類型詳解及其方法

字符引號 print 成員移除 join att pri str 字符串 #作用：描述名字，性別，國籍，地址等信息#定義：在單引號\雙引號\三引號內，由一串字符組成 name=‘Matthew‘ #優先掌握的操作： #1、按索引取值(正向取+反向取) ：只能取 #2

J2EE學習篇之--Struts1詳解

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

spark大資料架構初學入門基礎詳解

Spark是什麼 a) 是一種通用的大資料計算框架 b) Spark Core 離線計算 Spark SQL 互動式查詢 Spark Streaming 實時流式計算 Spark MLlib 機器學習 Spark GraphX 圖計算 c) 特點：

【搞定Java併發程式設計】第21篇：Java併發容器之ConcurrentHashMap詳解

上一篇：讀寫鎖 --- ReentrantReadWriteLock詳解本文目錄： 1、為什麼要使用ConcurrentHashMap？ 2、ConcurrentHashMap的實現 2.1、ConcurrentHashMap中主要的成員變數、成員方法和內部類 2.2、分段鎖的

JavaWeb學習篇之----Jsp詳解

今天我們來看一下Jsp的相關知識，首先來看看一下Jsp的相關定義: 簡介： JSP全稱是JavaServer Pages，它和servle技術一樣，都是SUN公司定義的一種用於開發動態web資源的技術。 JSP這門技術的最大的特點在於，寫jsp就像在寫html，但：它相

Spark Streaming初步使用以及工作原理詳解

在大資料的各種框架中，hadoop無疑是大資料的主流，但是隨著電商企業的發展，hadoop只適用於一些離線資料的處理，無法應對一些實時資料的處理分析，我們需要一些實時計算框架來分析資料。因此出現了很多流式實時計算框架，比如Storm，Spark Strea

Spark 論文篇-Spark：工作組上的叢集計算的框架（中英雙語）

論文內容：待整理參考文獻： Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. H

Pixhawk(PX4)之驅動詳解篇（0）_前期準備（招賢令）

一、開篇開源精神常在！！！誰說軟體工程師看不懂硬體原理圖。經過一段時間的考慮，加上綜合那麼多次培訓班學員的反饋問題，決定深入研究一下PX4系統的驅

Spark on Yarn Client和Cluster模式詳解

Spark在YARN中有yarn-cluster和yarn-client兩種執行模式: I. Yarn Cluster Spark Driver首先作為一個ApplicationMaster在YARN叢集中啟動，客戶端提交給ResourceManager的每一個job都

hadoop之mapreduce詳解（基礎篇）

本篇文章主要從mapreduce執行作業的過程，shuffle，以及mapreduce作業失敗的容錯幾個方面進行詳解。一、mapreduce作業執行過程 1.1、mapreduce介紹 MapReduce是一種程式設計模型，用於大規模資料集（大於1TB）的並行運

hadoop之mapreduce詳解（進階篇）

上篇文章hadoop之mapreduce詳解（基礎篇）我們瞭解了mapreduce的執行過程和shuffle過程，本篇文章主要從mapreduce的元件和輸入輸出方面進行闡述。一、mapreduce作業控制模組以及其他功能 mapreduce包括作業控制模組，程式設計模型，資料處理引擎。這裡我們重點闡述

hadoop之mapreduce詳解（優化篇）

一、概述優化前我們需要知道hadoop適合幹什麼活，適合什麼場景，在工作中，我們要知道業務是怎樣的，能才結合平臺資源達到最有優化。除了這些我們當然還要知道mapreduce的執行過程，比如從檔案的讀取，map處理，shuffle過程，reduce處理，檔案的輸出或者

Spark運算元篇 --Spark運算元之aggregateByKey詳解

相關推薦