spark的幾種模式的比較

阿新 • • 發佈：2018-12-03

在spark的學習中，spark一共有四種模式，分別是：

spark基於local

spark基於standalone

spark基於yarn

spark基於metsos

Standalone模式兩種提交任務方式

Standalone-client提交任務方式

提交命令

./spark-submit

--master spark://node1:7077

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

1000

或者

./spark-submit

--master spark://node1:7077

--deploy-mode client

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

執行原理圖解

執行流程

client模式提交任務後，會在客戶端啟動Driver程序。
Driver會向Master申請啟動Application啟動的資源。

資源申請成功，Driver端將task傳送到worker端執行。
worker將task執行結果返回到Driver端。

總結

client模式適用於測試除錯程式。Driver程序是在客戶端啟動的，這裡的客戶端就是指提交應用程式的當前節點。在Driver端可以看到task執行的情況。生產環境下不能使用client模式，是因為：假設要提交100個application到叢集執行，Driver每次都會在client端啟動，那麼就會導致客戶端100次網絡卡流量暴增的問題。

Standalone-cluster提交任務方式

提交命令

./spark-submit

--master spark://node1:7077

--deploy-mode cluster

--class org.apache.spark.examples.SparkPi

../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

執行原理圖解

執行流程

cluster模式提交應用程式後，會向Master請求啟動Driver.
Master接受請求，隨機在叢集一臺節點啟動Driver程序。
Driver啟動後為當前的應用程式申請資源。
Driver端傳送task到worker節點上執行。
worker將執行情況和執行結果返回給Driver端。

總結

Driver程序是在叢集某一臺Worker上啟動的，在客戶端是無法檢視task的執行情況的。假設要提交100個application到叢集執行,每次Driver會隨機在叢集中某一臺Worker上啟動，那麼這100次網絡卡流量暴增的問題就散佈在叢集上。

總結Standalone兩種方式提交任務，Driver與叢集的通訊包括：

1. Driver負責應用程式資源的申請

2. 任務的分發。

3. 結果的回收。

4. 監控task執行情況。

spark 基於yarn模式提交任務

Yarn模式兩種提交任務方式

yarn-client提交任務方式

提交命令

./spark-submit

--master yarn

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

或者

./spark-submit

--master yarn–client

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

或者

./spark-submit

--master yarn

--deploy-mode client

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

執行原理圖解

執行流程

客戶端提交一個Application，在客戶端啟動一個Driver程序。
應用程式啟動後會向RS(ResourceManager)傳送請求，啟動AM(ApplicationMaster)的資源。
RS收到請求，隨機選擇一臺NM(NodeManager)啟動AM。這裡的NM相當於Standalone中的Worker節點。
AM啟動後，會向RS請求一批container資源，用於啟動Executor.
RS會找到一批NM返回給AM,用於啟動Executor。
AM會向NM傳送命令啟動Executor。
Executor啟動後，會反向註冊給Driver，Driver傳送task到Executor,執行情況和結果返回給Driver端。

總結

Yarn-client模式同樣是適用於測試，因為Driver執行在本地，Driver會與yarn叢集中的Executor進行大量的通訊，會造成客戶機網絡卡流量的大量增加.

ApplicationMaster的作用：

為當前的Application申請資源
給NameNode傳送訊息啟動Executor。

注意：ApplicationMaster有launchExecutor和申請資源的功能，並沒有作業排程的功能。

yarn-cluster提交任務方式

提交命令

./spark-submit

--master yarn

--deploy-mode cluster

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

或者

./spark-submit

--master yarn-cluster

--class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar

100

執行原理圖解

執行流程

客戶機提交Application應用程式，傳送請求到RS(ResourceManager),請求啟動AM(ApplicationMaster)。
RS收到請求後隨機在一臺NM(NodeManager)上啟動AM（相當於Driver端）。
AM啟動，AM傳送請求到RS，請求一批container用於啟動Executor。
RS返回一批NM節點給AM。
AM連線到NM,傳送請求到NM啟動Executor。
Executor反向註冊到AM所在的節點的Driver。Driver傳送task到Executor。

總結

Yarn-Cluster主要用於生產環境中，因為Driver執行在Yarn叢集中某一臺nodeManager中，每次提交任務的Driver所在的機器都是隨機的，不會產生某一臺機器網絡卡流量激增的現象，缺點是任務提交後不能看到日誌。只能通過yarn檢視日誌。

ApplicationMaster的作用：

為當前的Application申請資源
給NameNode傳送訊息啟動Excutor。
任務排程。

停止叢集任務命令：yarn application -kill applicationID

spark的幾種模式的比較

spark的幾種模式的比較

spark學習(基礎篇)--(第三節)Spark幾種運行模式

運行Spark程序的幾種模式

spark 環境搭建及幾種模式測試

Spark spark-submit 提交的幾種模式

hybrid幾種模式

總結js面向對象調用的幾種模式

JavaScript中創建對象的幾種模式

vim的幾種模式&快捷鍵

交易所系統有哪幾種模式？交易系統開發,imToken錢包開發

2-Wi-Fi無線控制器開發例程(開發8266的幾種方式比較{AT，Lua，SDK，其它}開發工具安裝，開發固件獲取，刷固件)

建立物件的幾種模式

創建對象的幾種模式

redis幾種模式的部署(Windows下實現)

vim的幾種模式

Atitit 單點登入實現幾種模式架構圖目錄 1. 因此要點也就以下兩個：儲存信任驗證信任 1 1.1. 共享cookie （最簡單 1 1.2. 通過 url帶token引數跳轉 1 1.3.

（四）高德地圖之定位的幾種模式

spark幾種讀檔案的方式

DevOps--幾種模式

字串中判斷存在的幾種模式和效率(string.contains、string.IndexOf、Regex.Match)

spark的幾種模式的比較

相關推薦