Spark中groupBy groupByKey reduceByKey的區別

阿新 • • 發佈：2018-01-26

分享 red htm key-value com length .html () str

groupBy

和SQL中groupby一樣，只是後面必須結合聚合函數使用才可以。

例如：

hour.filter($"version".isin(version: _*)).groupBy($"version").agg(countDistinct($"id"), count($"id")).show()

groupByKey

對Key-Value形式的RDD的操作。

例如(取自link)：

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "spider", "eagle"), 2)
val b = a.keyBy(_.length)//給value加上key，key為對應string的長度
b.groupByKey.collect
//結果 Array((4,ArrayBuffer(lion)), (6,ArrayBuffer(spider)), (3,ArrayBuffer(dog, cat)), (5,ArrayBuffer(tiger, eagle)))

reduceByKey

與groupByKey功能一樣，只是實現不一樣。本函數會先在每個分區聚合然後再進行總的統計，如圖：

技術分享圖片

而groupByKey則是

技術分享圖片

因此，本函數比groupByKey節省了傳播的開銷，盡量少用groupByKey

參考

https://www.iteblog.com/archives/1357.html
http://blog.csdn.net/guotong1988/article/details/50556871
http://blog.cheyo.net/178.html

Spark中groupBy groupByKey reduceByKey的區別

分享 red htm key-value com length .html () str groupBy 和SQL中groupby一樣，只是後面必須結合聚合函數使用才可以。例如： hour.filter($"version".isin(version:

Spark中的groupByKey 、aggregateByKey、reduceByKey 的區別

1.reduceByKey vs aggregateByKey 假設你有一系列元組，以使用者ID為key，以使用者在某一時間點採訪的站為value：val userAccesses = sc.parallelize(Array("u1", "site1"), ("u2"

spark中map與mapPartitions區別

part print map spark 偽代碼一個數據最終 partition 在spark中，map與mapPartitions兩個函數都是比較常用，這裏使用代碼來解釋一下兩者區別 import org.apache.spark.{SparkConf, Spar

Spark中reduce和reducebykey

首先我們先講講兩個函式在功能上的作用與區別是什麼，然後我們再深入討論兩個函式在內部機理有什麼不同。reduce(binary_function) reduce將RDD中元素前兩個傳給輸入函式，產生一個新的return值，新產生的return值與RDD中下一個元素（第三個元素）

Spark中groupByKey、reduceByKey與sortByKey

park 一起 operator spa 排序 group top spark div groupByKey把相同的key的數據分組到一個集合序列當中： [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",

【Spark系列2】reduceByKey和groupByKey區別與用法

在spark中，我們知道一切的操作都是基於RDD的。在使用中，RDD有一種非常特殊也是非常實用的format——pair RDD，即RDD的每一行是（key, value）的格式。這種格式很像Python的字典型別，便於針對key進行一些處理。針對pair RDD這樣的

大數據spark中ml與mllib 的區別你分清了嗎？

科技；大數據；spark 大數據學習過程中一個重要的環節就是spark，但是在spark中有很多的知識點，很多人都傻傻分不清楚，其中，最易搞混的就是ml與mllib的區別，所以我們不妨來詳細的了解一下二者的區別。如果你想了解大數據的學習路線，想學習大數據知識以及需要免費的學習資料可以加群：784789

Spark中repartition和partitionBy的區別

是我 item its alt ive 同時 tint nts exe repartition 和 partitionBy 都是對數據進行重新分區，默認都是使用 HashPartitioner，區別在於partitionBy 只能用於 PairRDD，但是當它們同時都用於

spark中RDD，DataSet，DataFrame的區別

接觸到spark不可避免的會接觸spark的Api； rdd,DataFrame,DataSet，接下來就大致說一下他們的有點以及各自的區別；首先DataFrame，Data

Spark中map和flatMap的區別

Map和flatMap的區別 Transformation 含義 map(func) 返回一個新的RDD,該RDD由每一個輸入元素經過func函式轉換後組成 flatMap(func) 類似於map,但是每一個輸入元素可以被對映為0或多個輸出

spark中常用運算元含義及區別

Transform: 1. map:rdd中的每項資料進行map裡的操作後，會形成一個個新的元素的新rdd flatMap:在map的基礎上進行扁平化，形成一個新的rdd 2. distinct:轉換操作，去重 filter:對rdd中的元素進行過濾 filt

spark中makerdd和parallelize的區別

我們知道，在Spark中建立RDD的建立方式大概可以分為三種：（1）、從集合中建立RDD；（2）、從外部儲存建立RDD；（3）、從其他RDD建立。　　而從集合中建立RDD，Spark主要提供了兩中函式：parallelize和makeRDD。我們可以先看看這兩個函式的宣告

Spark中DenseMatrix中values()和toArray方法的區別

之前一直以為DenseMatrix中的values()和toArray方法獲取到的矩陣的資料是一樣的，結果今日一次矩陣轉置測試時發現兩者獲取到的資料是不一樣的，values()獲取到的資料是將DenseMatrix中的資料以行優先的形式將矩陣中的資料儲存到陣列中，而

【Big Data 每日一題20180821】Spark中ml和mllib的區別

Spark中ml和mllib的主要區別和聯絡如下： ml和mllib都是Spark中的機器學習庫，目前常用的機器學習功能2個庫都能滿足需求。 spark官方推薦使用ml, 因為ml功能更全面更靈活，未來會主要支援ml，mllib很有可能會被廢棄(據說可能是在spark3.

每次進步一點點——spark中cache和persist的區別

昨天面試被問到了cache和persist區別，當時只記得是其中一個呼叫了另一個，但沒有回答出二者的不同，所以回來後重新看了原始碼，算是弄清楚它們的區別了。 cache和persist都是用於將一個RDD進行快取的，這樣在之後使用的過程中就不需要重新計算了，可

spark中map和flatmap之間的區別

map()是將函式用於RDD中的每個元素，將返回值構成新的RDD。 flatmap()是將函式應用於RDD中的每個元素，將返回的迭代器的所有內容構成新的RDD,這樣就得到了一個由各列表中的元素組成的RDD,而不是一個列表組成的RDD。有些拗口，看看例子就明白了。 val

Spark學習筆記 --- Spark中Map和FlatMap轉換的區別

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Spark中的aggregate和aggregateByKey的區別及疑惑

aggregate(zeroValue,seq,comb,taskNums) 將初始值和第一個分割槽中的第一個元素傳遞給seq函式進行計算，然後將計算結果和第二個元素傳遞給seq函式，直到計算到最後一個值。第二個分割槽中也是同理操作。最後將初始值、所有分割槽的

Spark中的cache() persist() checkpoint()之間的區別

cache與persist的區別/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def cache(): this.type = persist() /** * Set th

spark 中map 和flatmap 的區別

需求背景：統計相鄰兩個單詞出現的次數。 val s="A;B;C;D;B;D;C;B;D;A;E;D;C;A;B" s: String = A;B;C;D;B;D;C;B;D;A;E;D;C;A;B val data=sc.parallelize(Seq(s)

Spark中groupBy groupByKey reduceByKey的區別

groupBy

groupByKey

reduceByKey

參考

相關推薦