Spark中的groupByKey 、aggregateByKey、reduceByKey 的區別

阿新 • • 發佈：2019-02-02

1.reduceByKey vs aggregateByKey

假設你有一系列元組，以使用者ID為key，以使用者在某一時間點採訪的站為value：

val userAccesses = sc.parallelize(Array("u1", "site1"), ("u2", "site1"), ("u1", "site1"), ("u2", "site3"), ("u2", "site4")））

我們要對這個列表進行處理，獲得某個使用者訪問過且去重後的所有站點。因groupByKey運算量較大，可選方案有reduceByKey，aggregateByKey。

reduceByKey程式碼如下：

val mapedUserAccess = userAccesses.map(userSite => (userSite._1, Set(userSite._2)))
val distinctSite = mapedUserAccess.reduceByKey(_++_)

但上述程式碼的問題是，RDD的每個值都將建立一個Set，如果處理一個巨大的RDD,這些物件將大量吞噬記憶體，並且對垃圾回收造成壓力。

如果使用aggregateByKey：

val zeroValue = collecyion.mutable.set[String]()
val aggregated = userAccesses.aggregateByKey(zeroValue)((set,v) => set += v, (setOne, setTwo) => setOne ++= setTwo)

為避免reduceByKey記憶體問題，可用aggregateByKey。

aggregateByKey函式的使用，需為它提供以下三個引數：

1.零值（zero）：即聚合的初始值

2.函式f:(U, V)

把值V合併到資料結構U，該函式在分割槽內合併值時使用

3.函式 g:(U, V)

合併兩個資料結構U，在分割槽間合併值時呼叫此函式。

2.原理差別

（1）groupByKey()是對RDD中的所有資料做shuffle,根據不同的Key對映到不同的partition中再進行aggregate。

（2）aggregateByKey()是先對每個partition中的資料根據不同的Key進行aggregate，然後將結果進行shuffle，完成各個partition之間的aggregate。因此，和groupByKey()相比，運算量小了很多。

(3) distinct()也是對RDD中的所有資料做shuffle進行aggregate後再去重。

（4）reduceByKey()也是先在單臺機器中計算，再將結果進行shuffle，減小運算量

Spark中的groupByKey 、aggregateByKey、reduceByKey 的區別

1.reduceByKey vs aggregateByKey 假設你有一系列元組，以使用者ID為key，以使用者在某一時間點採訪的站為value：val userAccesses = sc.parallelize(Array("u1", "site1"), ("u2"

Spark中groupByKey、reduceByKey與sortByKey

park 一起 operator spa 排序 group top spark div groupByKey把相同的key的數據分組到一個集合序列當中： [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",

spark中webUI的啟動、除錯、配置歷史伺服器，spark-Master-HA等

Spark WEBUI 【Jobs,Stages,StorageLevel,Environment,Executors,SQL,Streaming 】 4040埠可以看到當前application中的所有的job,點選job可以看到當前job下

spark中map和flatmap之間的區別

map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成新的RDD,這樣就得到了一個由各列表中的元素組成的RDD,而不是一個列表組成的RDD。有些拗口，看看例子就明白了。 val

Spark學習筆記 --- Spark中Map和FlatMap轉換的區別

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

結合Spark原始碼分析, combineByKey, aggregateByKey, foldByKey, reduceByKey

combineByKey def combineByKey[C]( createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)

Spark中groupBy groupByKey reduceByKey的區別

分享 red htm key-value com length .html () str groupBy 和SQL中groupby一樣，只是後面必須結合聚合函數使用才可以。例如： hour.filter($"version".isin(version:

Spark groupByKey、sortByKey、reduceByKey Java實現

import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.

JS中const、var和let區別

方法 pre 命令 con 使用它的 comm 作用影響在JavaScript中有三種聲明變量的方式：var、let、const。 1.const 聲明創建一個只讀的常量。這不意味著常量指向的值不可變，而是變量標識符的值只能賦值一次，必須初始化。 const b

DataStage中merge、lookup、join的區別與聯系

處理過程 key 占用內存效率功能要求過程事實表 lookup 三者功能類似，都可以將表連接起來進行輸出。區別主要體現在性能上。 lookup就是一個表在另一個表中找，處理過程都在內存進行，因此占用內存較多，一般大事實表和小緯表用這種方式關聯效率高。 merge

JS中innerHTML、outerHTML、innerText 、outerText、value的區別與聯系？jQuery中的text()、html()和val()

chrom html標簽 sel detail put 替換 not 內容 tail 一、JS中innerHTML、outerHTML、innerText 、outerText、value的區別與聯系？jS中設置或者獲取所選內容的值：①innerHTML :屬性設置或返回該

js中slice、splice用法與區別

delet 內容 title pan ont 指定至少一個拷貝 1.slice(start,end)（參數可選） slice() 方法返回一個從開始到結束（不包括結束）選擇的數組的一部分淺拷貝到一個新數組對象。原始數組不會被修改。 var a = [‘a‘, ‘b‘

sql語句中left join、right join、inner join的區別

select http img image ner -s style nbsp color left join(左聯接) 返回包括左表中的所有記錄和右表中聯結字段相等的記錄； right join(右聯接) 返回包括右表中的所有記錄和左表中聯結字段相等的記錄；inner j

C# .Net List<T>中Remove()、RemoveAt()、RemoveRange()、RemoveAll()的區別，List<T>刪除匯總

contains ret 一個成功 con sde edi ont div 在List<T>中刪除主要有Remove()、RemoveAt()、RemoveRange()、RemoveAll()這幾個方法。下面一一介紹使用方法和註意點。我們以List<

Android中m、mm、mmm、mma、mmma的區別

第三方源代碼 end art trac span copy makefile sys m：編譯整個安卓系統 makes from the top of the tree mm：編譯當前目錄下的模塊，當前目錄下需要有Android.mk這個makefile文件，否

javascript中substring()、slice()、substr()方法的區別

start 指定 art bsp ava color 目的開始 www substring()方法用於提取字符串中介於兩個指定下標之間的字符。 stringObject.substring(start,stop)slice() 方法可提取字符串的某個部分，並以新的字

java中File類getPath()、getAbsolutePath()、getCanonicalPath()區別？

mil dir block user out div cnblogs test file 簡單看一下描述，例子最重要。 1、getPath()：　　返回定義時的路徑，（就是你寫什麽路徑，他就返回什麽路徑） 2、getAbsolutePath()：　　返回絕對路徑，但不會

java中的String、StringBuffer、StringBuilder的區別

lin tr1 ffffff 線程安全 java api 安全方法大量數據 insert String、StringBuffer、StringBuilder都是java中的常用字符串類，下面來看看三者之間的異同。　一、可變與不可變：　　　　　　String：字符串

Linux中profile、bashrc、bash_profile之間的區別和聯系（轉）

用戶登錄 upd rtu 文件輸入當前設定 log set less /etc/profile:此文件為系統的每個用戶設置環境信息,當用戶第一次登錄時,該文件被執行.並從/etc/profile.d目錄的配置文件中搜集shell的設置. 英文描述為： # /etc/pr

spring框架中ModelAndView、Model、ModelMap區別

實現類 java類 lan esp 測試 public googl user ram 轉載來源：http://www.cnblogs.com/google4y/p/3421017.html 註意：如果方法聲明了註解@ResponseBody ，則會直接將返回值輸出到頁面

Spark中的groupByKey 、aggregateByKey、reduceByKey 的區別

1.reduceByKey vs aggregateByKey

2.原理差別

相關推薦