Spark的WordCount到底產生了多少個RDD

阿新 • • 發佈：2019-01-29

在Spark的wordcount中，一共會產生幾個RDD？
很多人在面試的過程會被問到Spark的WordCount中一共會產生多少個RDD呢？
答案是六個
一個HadoopRDD
四個MapPartitionsRDD
一個ShuffleRDD
下面根據原始碼進行分析，

val  lines : RDD[String] = sc.textFile("hdfs://hadoop01/wc/input")
val words : RDD[String] = lines.flatMap(_.split(" "))
val wordAndOne : RDD[(String,Int)] = words.map((_,1))
val reduced = wordAndOne.reduceByKey(_+_)
reduced.saveAsTextFile("hdfs://hadoop/wc/output")

1、首先sparkContext呼叫 textFile()方法

val  lines : RDD[String] = sc.textFile("hdfs://hadoop01/wc/input")

通過下面的原始碼，可以看到在這個方法中先呼叫了一個hadoopFile方法再呼叫map方法
在這裡插入圖片描述
點進hadoopFile中，可以看到這個方法的返回值是RDD，可以看到這裡產生了一個HadoopRDD

hadoopFile方法返回的是個RDD（HadoopRDD），在對這個RDD呼叫map方法，點到map方法中可以看到，map方法中產生了一個MapPartitionsRDD
在這裡插入圖片描述

2、接下來呼叫flatMap()方法

val words : RDD[String] = lines.flatMap(_.split(" "))

點到這個方法裡，會發現這個方法也產生了一個MapPartitionsRDD

在這裡插入圖片描述
3、然後往下執行程式碼，執行到了map方法

val wordAndOne : RDD[(String,Int)] = words.map((_,1))

點進map的方法，可以看到產生了一個MapPartitionsRDD

在這裡插入圖片描述

4、在向下執行，就會呼叫reduceByKey方法

val reduced = wordAndOne.reduceByKey(_+_)

這裡要注意啦，reduceByKey雖然是一個rdd呼叫的，但reduceByKey這個方法不是RDD中的方法

，我們可以在RDD中找到如下的一個隱式轉換，當我們去呼叫reduceByKey方法時，會發生隱式轉換，隱式的RDD轉化成了PairRDDFunctions這個類，reduceByKey是PairRDDFunctions的方法
在這裡插入圖片描述

接下來點進reduceByKey方法，再點reduceByKey(defaultPartitioner(self), func)進去
在這裡插入圖片描述

點到combineByKeyWithClassTag裡面
在這裡插入圖片描述

點到combineByKeyWithClassTag中會看見，這裡面會生成一個ShuffleRDD
在這裡插入圖片描述

5、最後呼叫saveAsTextFile，在這裡面有呼叫了一個mapPartitions方法
在這裡插入圖片描述
在mapPartitions方法中會產生一個MapPartitionsRDD

所以綜合上述分析，我們可以看見在spark的一個標準的wordcount中一共會產生6個RDD，textFile() 會產生一個HadoopRDD和一個MapPerPartitionRDD，flatMap()方法會產生一個MapPartitionsRDD，map() 方法會產生一個MapPartitionsRDD ,reduceByKey()方法會產生一個ShuffleRD，saveAsTextFile會產生一個MapPartitionsRDD，所以一共會產生6個RDD。

Spark的WordCount到底產生了多少個RDD

Spark的WordCount到底產生了多少個RDD

http請求中沒有set-cookie，卻產生了jsessionid；tomcat產生兩個sessionid，一個是自定義的sessionid(customSessionId),一個是預設的jsess

一大早就解決了個服務器木馬問題

Jexus~docker與它產生了暖味

爬了個爬（二）性能相關及深度優先與廣度優先

弄了個域名

Oracle 每隔5分鐘產生2個clsc*.log文件

費了個勁的git

閑的無聊寫了個很(wu)有(liao)意(dao)思(bao)的程序

java基礎基礎總結----- 隨機數（產生四個隨機數）

2星|《新物種爆炸》：用自造的新名詞把已知事情換了個說法。語文與邏輯都比較差。

縮點（洛谷3387）——不會寫DP 的我只好來了個SPFA

智能網聯汽車到底該怎麽玩？騰訊在成都放了個大招

自己創建了個java群，歡迎加入

今天用node的cheerio模塊做了個某乎的爬蟲

嘗試造了個工具類庫，名為 Diana

AI手機攝影的三個流派，其中藏了個假的

弄了個歐拉篩求素數

ios 傳遞JSON串過去前面多了個等號

用vue寫了個移動端車牌輸入鍵盤

Spark的WordCount到底產生了多少個RDD

相關推薦