Spark的基本概念及工作原理

阿新 • • 發佈：2019-01-08

/*
 * Cluster-> WordNode -> Executors -> Threads -> Task
 *
 * Job Action操作 * Stage shuffle操作 *
 * Application -> Jobs -> Stages -> Task
 */

Spark作業的基本概念

-Application：使用者自定義的Spark程式，使用者提交後，Spark為App分配資源將程式轉換並執行。

-Driver Program：執行Application的main()函式並且建立SparkContext。

-RDD DAG：當RDD遇到Action運算元，將之前的所有運算元形成一個有向無環圖(DAG)。再在Spark中轉化為Job，提交到叢集進行執行。一個App中可以包含多Job。

-Job：一個RDD Graph觸發的作業，往往由Spark Action運算元觸發，在SparkContext中通過runJob方法向Spark提交Job。

-Stage：每個Job會根據RDD的寬依賴關係被切分很多Stage，每個Stage中包含一組相同的Task，這一組Task也叫TaskSet。

-Task：一個分割槽對應一個Task,Task執行RDD中對應Stage中所包含的運算元。Task被封裝好後放入Executor的執行緒池中執行。Executor會線上程池中取得一個執行緒，分配給一個任務，之後任務執行完成，執行緒池回收執行緒。

Spark程式與作用概念對映

val rawFile = sc.textFile("README.md") //Application:1-6行

（將輸入的文字檔案轉化為RDD）

val words = rawFile.flatMap(line=>line.split(" ")) //Job:1-5行

（將文字檔案對映為word單詞，將文字檔案進行分詞，轉換為一個單詞的RDD）

val wordNumber = words.map(w=>(w,1)) //Stage:1-3或4-5行

（將RDD中的每個單詞對映為，單詞名稱為key，value為1的kye-value對）

val wordCounts = wordNumber.reduceByKey(_+_) //Tasks:1-3或4-5行

（通過reduceBykey操作，將同一個單詞的資料進行聚集，進而統計好每一個單詞的個數）

wordCounts.foreach(println)

（foreach輸出每一個單詞的計數）

wordCounts.saveAsTextFile

（saveAsTextFile將結果儲存到磁碟）

6行程式碼對應為一個Application，這個應用程式中有兩個Job，1-5行是一個Job,1-4 + 6行是一個Job。

在1-5行這個Job中：
1-3行是一個stage，4-5行是一個stage，因為map和reduceByKey之間要進行shuffle操作。

Spark作業執行流程

-Spark程式轉換，將應用程式提交到叢集，叢集將程式由一個application轉換成不同的任務集；

-在叢集中輸入資料塊

-叢集會根據排程策略執行各個Stage的Tasks分發到各個節點，在每個資料塊上進行執行

-執行完成後，會根據shuffle在叢集中將結果進行混洗，再進行下一階段的Stage，直到所有Stage執行完畢，輸出結果返回

Driver

DAGScheduler -> Stage -> Task

TaskScheduler -> 分發Task到Worker

Driver -> 收集Worker的計算結果

Work

執行Task

Spark的基本概念及工作原理

/* * Cluster-> WordNode -> Executors -> Threads -> Task * * Job Action操作 * Stage shu

Elasticsearch系列---Elasticsearch的基本概念及工作原理

基本概念 Elasticsearch有幾個核心的概念，花幾分鐘時間瞭解一下，有助於後面章節的學習。 NRT Near Realtime，近實時，有兩個層面的含義，一是從寫入一條資料到這條資料可以被搜尋，有一段非常小的延遲（大約1秒左右），二是基於Elasticsearch的搜尋和分析操作，耗時可以達到秒級。

RFID的基本結構及工作原理

無線射頻識別(RFID)是一種無線通訊技術。它能夠通過無線電訊號對被測物體進行識別，而系統不需要與被測物體有接觸[7]。通過電感耦合方式產生的電磁場，無線電訊號把資訊從放在被測物體上的電子標籤中傳輸出去，從而達到自動識別的目的。在數米之內,電子標籤都能夠被識別到，它包含了

【Spark核心原始碼】Spark基本概念及特點

目錄 Hadoop MapReduce的不足 Spark的基本概念 RDD DAG Partition NarrowDependency ShuffleDependency Job Stage Task Shuffle Spark的基本元件 Clu

spark基本概念及入門

spark spark背景什麼是spark Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apache頂級專案。目前，Spark生態系統已經發展成為一個包含多個子專案的集

Spark基本架構及執行原理

Spark軟體棧 Spark Core: 包含Spark的基本功能，包含任務排程，記憶體管理，容錯機制等，內部定義了RDDs(彈性分散式資料集)，提供了很多APIs來建立和操作這些RDDs。為其他元件提供底層的服務。 Spark SQL: S

微控制器入門——微控制器的基本構成及工作原理（1）

有了電子電路和數位電路的基礎知識，就可以開始學習嵌入式系統的核心元件-微控制器。從本期開始我們將為大家介紹微控制器的基礎知識。在微控制器入門系列講座中，首先學習微控制器的基本構成和工作原理、以及外圍功能電路，然後，挑戰一個實際微控制器的執行。微控制器是控制電子產品的大腦現

OSPF路由協議概念及工作原理(一)

Zookeeper簡介、基本概念和工作原理

ZooKeeper是一個分散式的，開放原始碼的分散式應用程式協調服務，它包含一個簡單的原語集，分散式應用程式可以基於它實現同步服務，配置維護和命名服務等。Zookeeper是hadoop的一個子專案，其發展歷程無需贅述。在分散式應用中，由於工程師不能很好地使用鎖機制，以及

Spark基本架構及原理

Spark on YARN模式根據Driver在叢集中的位置分為兩種模式：一種是YARN-Client模式，另一種是YARN-Cluster（或稱為YARN-Standalone模式） Yarn-Client模式中，Driver在客戶端本地執行，這種模式可以使得Spark Application和客戶端進行

Storm學習(1)——基本的概念和工作原理

一、基本概念 1.相較於hadoop的優勢相對於hadoop而言，strom的優勢在於對於應對大資料兩的實時資料處理上，因為hadoop在處理大資料過程中高延時的特點使得其面對實時資料缺乏足夠的應對策略，目前strom已經被廣泛的應用在諸如金融系統，實時

【Spark深入學習-11】Spark基本概念和運行模式

nmf 磁盤大數據平臺並不是鼠標 .cn 管理系統大型數據集 spa ----本節內容------- 1.大數據基礎 1.1大數據平臺基本框架 1.2學習大數據的基礎 1.3學習Spark的Hadoop基礎 2.Hadoop生態基本介紹 2.1

Linux 02 Linux基本概念及操作

調用 manual 如何滾動示例函數 script 部分 ctrl+ 基本echo "hello word" 輸出 hello wordtouch file 創建文件名為file 常用快捷鍵TAB：在忘記命令時，可以用來補全命令Ctrl+c：強制終止

Elasticsearch基本概念及核心配置文件詳解

last log4j 強烈內存文檔 size oca 機制集群　　Elasticsearch5.X,下列的是Elasticsearch2.X系類配置，其實很多配置都是相互兼容的 1. 配置文件 config/elasticsearch.yml 主配置文件

Docker的概念及剖析原理和特點

應用程序服務器臺電腦數據庫虛擬機一、docker的簡介：應用容器是個啥樣子呢，一個做好的應用容器長的就像一個裝好了一組特定應用的虛擬機一樣，比如我現在想用mysql數據庫，我直接找個裝好了的MySQL的容器就可以了，想用的時候一運行容器，MySQL服務就起來了，就可以使

Android 基於Netty的消息推送方案之概念和工作原理(二)

img b2c 決定 watermark net nios 通道感覺 art 上一篇文章中我講述了關於消息推送的方案以及一個基於Netty實現的一個簡單的Hello World。為了更好的理解Hello World中的代碼，今天我來解說一下關於Netty中一些概念和工

樹（基本概念及存儲結構）

表示 com 鏈式結構定義 comment pen next rac 存儲樹的定義—-遞歸（兩者相聯系）根節點：唯一節點的度：節點擁有的子樹數。度為0—>稱為終端節點或葉節點樹的度：樹內各節點的度的最大值內部節點：除根節點外的節

Servlet的生命周期及工作原理

response 繼承 ice ons 接口五個 service() 代碼初始　　Servlet的生命周期分為三個階段：　　1，初始化階段，調用init()方法；　　2，響應客戶端請求階段，調用service()方法　　2，終止階段，調用destory()方法

Spark基本概念

ams lec all count 抽象類 sil 測試內容 pre Spark基本概念 1.SparkContent 　　a.Driver programs通過SparkContent對象訪問Spark 　　b.SparkContent代表和一個集群的鏈接　　c.在s

DNS基本概念及操作詳解----------------轉載

dns介紹 DNS基本概念及操作詳解目錄：1.DNS協議2.DNS查詢 2.1遞歸查詢 2.2跌代查詢 2.3反向查詢3.域維護 3.1全量AXFR傳輸 3.2增量IXFR傳輸 3.3通過NOTIFY 3.4動態更新4.DNS安全在很多人看來，DNS只是為外部提供DNS解析服務（我以前也是這麽認為

Spark的基本概念及工作原理

相關推薦