spark RDD常用運算元（二）

阿新 • • 發佈：2018-11-07

- reduceByKey

演算法解釋
reduceByKey 是比 combineByKey 更簡單的一種情況，只是兩個值合併成一個值，（ Int， Int V）to （Int， Int C），比如疊加。所以 createCombiner reduceBykey 很簡單，就是直接返回 v，而 mergeValue和 mergeCombiners 邏輯是相同的，沒有區別。
原始檔
val rdd = sc.parallelize(Array(("aa", 1), ("aa", 1), ("cc", 1), ("dd", 1), ("ee", 1)))
 
scala程式碼
val rdd = sc.parallelize(Array(("aa", 1), ("aa", 1), ("cc", 1), ("dd", 1), ("ee", 1)))
// rdd.reduceByKey((x,y) => x + y).foreach(println(_))
println(rdd.reduceByKey((x,y) => x + y).collect().mkString(","))
過濾結果
(ee,1),(aa,2),(dd,1),(cc,1)

- foldByKey

演算法解釋

該函式用於RDD[K,V]根據K將V做摺疊、合併處理，其中的引數zeroValue表示先根據對映函式將zeroValue應用於V,進行初始化V,再將對映函式應用於初始化後的V. foldByKey可以參考我之前的scala的fold的介紹與reduce不同的是 foldByKey開始摺疊的第一個元素不是集合中的第一個元素，而是傳入的一個元素
原始檔
val rdd = sc.parallelize(Array(("aa", 1), ("aa", 1), ("cc", 1), ("dd", 1), ("ee", 1)))
scala程式碼
val rdd = sc.parallelize(Array(("aa", 1), ("aa", 1), ("cc", 1), ("dd", 1), ("ee", 1)))
// rdd.reduceByKey((x,y) => x + y).foreach(println(_))
println(rdd.reduceByKey((x,y) => x + y).collect().mkString(","))
 
過濾結果
(ee,1),(aa,2),(dd,1),(cc,1)

- sortByKey

演算法解釋

SortByKey用於對pairRDD按照key進行排序，第一個引數可以設定true或者false，預設是true
SortBy和sortByKey功能相同
原始檔
val rdd = sc.makeRDD(Array(("1", 1), ("5", 1), ("3", 1), ("1", 1), ("2", 1)))
scala程式碼
println(rdd.reduceByKey((x, y) => x + y).sortByKey().collect().mkString(","))
println(rdd.reduceByKey((x, y) => x + y).sortBy(_._2).collect().mkString(","))
過濾結果
sortByKey : (1,2),(2,1),(3,1),(5,1)
sortBy : (2,1),(5,1),(3,1),(1,2)

- groupByKey

演算法解釋
groupByKey會將RDD[key,value] 按照相同的key進行分組，形成RDD[key,Iterable[value]]的形式，有點類似於sql中的groupby，例如類似於mysql中的group_concat
原始檔
val rdd = sc.makeRDD(Array(("1", 1), ("5", 1), ("3", 1), ("1", 1), ("2", 1)))
scala程式碼
val scoreDetail = sc.parallelize(List(("name", "張三"), ("name", "李四"), ("age", 11), ("age", 20)))
println(scoreDetail.groupByKey().collect().mkString(","))
過濾結果
(name,CompactBuffer(張三, 李四)),(age,CompactBuffer(11, 20))

- cogroup

演算法解釋
groupByKey是對單個 RDD 的資料進行分組，還可以使用一個叫作 cogroup() 的函式對多個共享同一個鍵的 RDD 進行分組

原始檔

val scoreDetail = sc.parallelize(List(("xiaoming",95),("xiaoming",90),("lihua",95),("lihua",98),("xiaofeng",97)))
val scoreDetai2 = sc.parallelize(List(("xiaoming",65),("lihua",63),("lihua",62),("xiaofeng",67)))
val scoreDetai3 = sc.parallelize(List(("xiaoming",25),("xiaoming",15),("lihua",35),("lihua",28),("xiaofeng",36)))

scala程式碼

val scoreDetail = sc.parallelize(List(("xiaoming",95),("xiaoming",90),("lihua",95),("lihua",98),("xiaofeng",97)))
val scoreDetai2 = sc.parallelize(List(("xiaoming",65),("lihua",63),("lihua",62),("xiaofeng",67)))
val scoreDetai3 = sc.parallelize(List(("xiaoming",25),("xiaoming",15),("lihua",35),("lihua",28),("xiaofeng",36)))
println(scoreDetail.cogroup(scoreDetai2,scoreDetai3).collect().mkString(","))

過濾結果

(xiaoming,(CompactBuffer(95, 90),CompactBuffer(65),CompactBuffer(25, 15))),(lihua,(CompactBuffer(95, 98),CompactBuffer(63, 62),CompactBuffer(35, 28))),(xiaofeng,(CompactBuffer(97),CompactBuffer(67),CompactBuffer(36)))

spark RDD常用運算元（二）

- reduceByKey 演算法解釋 reduceByKey 是比 combineByKey 更簡單的一種情況，只是兩個值合併成一個值，（ Int， Int V）to （Int， Int C），比如疊加。所以 createCombiner reduceBykey 很簡

spark RDD常用運算元（一）

- filter 演算法解釋 filter 函式功能是對元素進行過濾，對每個元素應用 f 函數，返回值為 true 的元素在RDD 中保留，返回值為 false 的元素將被過濾掉。內部實現相當於生成 FilteredRDD

spark RDD常用運算元（三）

- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup 演算法解釋 first：返回第一個元素 take：rdd.t

spark RDD運算元（二） filter,map ,flatMap

作者: 翟開順首發：CSDN 先來一張spark快速大資料中的圖片進行快速入門，後面有更詳細的例子 filter 舉例，在F:\sparktest\sample.txt 檔案的內容如下 aa bb cc aa aa aa dd

Spark轉GemFire任務（二）

rip spec parent region turn source desc 6.2 include ADMG-2.2.1.3 - BRAVO CoA Mapping - TB Revision 7/11: If Bravo code is not numeric,

Linux常用命令（二）

swd name unalias /etc/ 忘記 man 所有類型超過 1，alias 別名簡化復雜命令的輸入 alias myls=‘ls -lh‘ #定義別名 unalias m

R語言中常用包（二）

json數據格式預測數據環境地圖 spec pdf 大氣 source 數據導入以下R包主要用於數據導入和保存數據feather：一種快速，輕量級的文件格式。在R和python上都可使用readr：實現表格數據的快速導入。中文介紹可參考這裏readxl：讀取Mic

Spark學習之路（二）Spark2.3 HA集群的分布式安裝

serve html 元數據不安裝 rec ive cut 再次 apps 一、下載Spark安裝包 1、從官網下載 http://spark.apache.org/downloads.html 2、從微軟的鏡像站下載 http://mirrors.hust.

Spark 的Core深入（二）

hadoop spark SPARK RDD Spark 的 Core 深入（二）

Spark環境常用配置（profile）

... dfs already yarn XP etc for file HR # /etc/profile: system-wide .profile file for the Bourne shell (sh(1))# and Bourne compatible s

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

常用類（二）

比較 -s ringbuf sem 構造 lac pty 沒有構建四、String類概述及其構造方法概述字符串是由多個字符組成的一串數據(字符序列)字符串可以看成是字符數組構造方法 public String()public String(byte[] bytes

ADB常用命令（二）

connect span dci 選擇對象 http 重新 ice jpg 參考 http://adbshell.com/commands 常用命令查看adb 版本 adb version 打印所有附加模擬器/設備的列表 adb devices 設備序列號

Docker之常用命令（二）

這篇部落格就不扯皮了，簡單粗暴地貼上自己整理的一份Docker常用命令。 docker search ** // 查詢映象 docker pull nginx // 載入映象 # -a 拉取所有tagged映象 # --disable-content-trust 忽略映象

git的常用指令（二） git add -A 、git add . 和 git add -u

git add . ：他會監控工作區的狀態樹，使用它會把工作時的所有變化提交到暫存區，包括檔案內容修改(modified)以及新檔案(new)，但不包括被刪除的檔案。 git add -u ：他僅監控已經被add的檔案（即tracked file），他會將被修改的檔案提交到暫存區。add -u 不會提交新檔

XMPP常用協議（二）

這一篇主要介紹傳送訊息，傳送和接收到的XML格式。 8. 傳送文字訊息因為Android 中直接在Message 根目錄擴充套件多個節點比較麻煩，所以我們這邊只擴充套件了一個節點，然後在這個節點內部新增多個子節點來傳遞內容。傳送訊息時，如果對方離線時，body又為空，則對

Spark採坑系列（二）使用Scala編寫的工程Maven打包沒有Scala檔案

新增下面的maven Scala編譯支援 <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-

Spark core原始碼分析之spark叢集的啟動（二）

2.2 Worker的啟動 org.apache.spark.deploy.worker 1 從Worker的伴生物件的main方法進入在main方法中首先是得到一個SparkConf例項conf，然後將conf和啟動Worker傳入的引數封裝得到Wor

Spark基礎-scala學習（二）

面向物件程式設計之類 //定義一個簡單的類 scala> :paste // Entering paste mode (ctrl-D to finish) //類預設public的 class HelloWorld{ private var name = "leo" def sayHello(

Linux終端常用命令（二）

grep命令：作用：在檔案中搜索字串匹配的行並輸出語法：grep[-cinv]’搜尋的字串’ filename -v :反向選擇，顯示不包含匹配文字的所有行 eg: grep -v “^#” /etc /inittab 表示含義：顯示inittab檔

spark RDD常用運算元（二）

- reduceByKey

- foldByKey

- sortByKey

- groupByKey

- cogroup

相關推薦