大話Spark(3)-一圖深入理解WordCount程式在Spark中的執行過程

阿新 • • 發佈：2019-05-24

本文以WordCount為例, 畫圖說明spark程式的執行過程
WordCount就是統計一段資料中每個單詞出現的次數,
例如hello spark hello you 這段文字中hello出現2次, spark出現1次, you出現1次.
先上完整程式碼:

object WordCount {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("WordCount");
    val sc = new SparkContext(conf)
  
    val lines = sc.textFile("hdfs://xxx:9000/spark.txt", 3); 
    val words = lines.flatMap { line => line.split("\s+") }   
    val pairs = words.map { word => (word, 1) }   
    val wordCounts = pairs.reduceByKey { _ + _ }
    wordCounts.foreach(wordCount => println(wordCount._1 + " appeared " + wordCount._2 + " times."))  
  }
}

上面幾行程式碼就把hdfs上的spark.txt中每個單詞出現的個數計算完成.
Spark叢集的執行單位是Application，任何提交的任務都會產生一個Application。一個Application只會關聯上一個Spark上下文，也就是SparkContext。構建SparkContext時可以傳入Spark相關配置，也就是SparkConf，它可以用來指定Application的名稱，任務需要的CPU核數/記憶體大小，調優需要的配置等等. 以下兩行建立了SparkContext:

val conf = new SparkConf().setAppName("WordCount");
val sc = new SparkContext(conf)

建立完SparkContext之後, spark.txt的檔案數如何被spark處理的呢,讓我們一起看一下:
首先我們假設spark.txt在hdfs上對應著3個檔案,檔案內容都一樣,sc.textFile("hdfs://xxx:9000/spark.txt", 3)也執行了最小分割槽數為3.
然後wordcount執行過程如下:

說明:

綠,紅,黃色箭頭的地方發生了`Shuffer,把整個任務分成了2個Stage(2個藍色虛線框)
紅色虛線框代表一個Partition窄依賴(每個分割槽只被子RDD的一個分割槽所使用)的執行過程, 多個partition是並行執行的

reduceByKey會先把每個Partition中的資料預聚合(groupByKey不會)
Stage中的資料都是在記憶體中,不像MapReduce會頻繁寫磁碟,速度很快.
補充:其實textFile,flatMap,map,reduceByKey等transformation操作都是lazy的,程式執行到這裡不會立即執行,只有再觸發action操作的時候才會執行,此例中為wordCounts.foreach這個action操作.

大話Spark(3)-一圖深入理解WordCount程式在Spark中的執行過程

大話Spark(3)-一圖深入理解WordCount程式在Spark中的執行過程

3.2《深入理解計算機系統》筆記（二）內存和高速緩存的原理【插圖】

Java程式設計師從笨鳥到菜鳥之（八十二）細談Spring（十一）深入理解spring+struts2整合（附原始碼）

spring深入學習（一）深入理解 Spring IOC

JBoss 系列六十一：深入理解 jBPM Human Task

golang技術隨筆（一）深入理解interface

重學Golang系列（一）: 深入理解 interface和reflect

深入理解JVM_java代碼的執行機制01

深入理解SQL Server 2005 中的 COLUMNS_UPDATED函數

深入理解Java程式執行順序

深入理解Javascript箭頭函式中的this

深入理解Java虛擬機器之執行時資料區域

深入理解CPP與C中bsearch函式的用法

深入理解C語言的函式呼叫過程

深入理解Java虛擬機器之類執行時棧幀結構

深入理解 hashcode() 和 HashMap 中的hash 演算法

深入理解Fabric環境搭建的詳細過程

深入理解Docker容器引擎runC執行框架_Kubernetes中文社群

如何深入理解時間序列分析中的平穩性？

深入理解遞迴函式的呼叫過程

大話Spark(3)-一圖深入理解WordCount程式在Spark中的執行過程

相關推薦