Spark多種執行模式

阿新 • • 發佈：2018-11-17

https://blog.csdn.net/fbsxghvudk/article/details/80608856?utm_source=blogxgwz17

https://www.jianshu.com/p/65a3476757a5

MASTER_URL	含義
local	使用一個Worker執行緒本地化執行Spark（預設）
local[k]	使用K個Worker執行緒本地化執行Spark
local[*]	使用K個Worker執行緒本地化執行Spark(這裡K自動設定為機器的CPU核數)
spark://HOST:PORT	連線到指定的Spark單機版叢集(Spark standalone cluster)master。必須使用master所配置的介面，預設介面7077.如spark://10.10.10.10:7077
mesos://HOST:PORT	連線到指定的Mesos叢集。host引數是Moses master的hostname。必須使用master所配置的介面，預設介面是5050.
yarn-client	以客戶端模式連線到yarn叢集，叢集位置由環境變數HADOOP_CONF_DIR決定.
yarn-cluster	以叢集模式連線到yarn叢集，同樣由HADOOP_CONF_DIR決定連線到哪兒

1，測試或實驗性質的本地執行模式（單機）

該模式被稱為Local[N]模式，是用單機的多個執行緒來模擬Spark分散式計算，通常用來驗證開發出來的應用程式邏輯上有沒有問題。

其中N代表可以使用N個執行緒，每個執行緒擁有一個core。如果不指定N，則預設是1個執行緒（該執行緒有1個core）。

如果是local[*]，則代表 Run Spark locally with as many worker threads as logical cores on your machine.

如下：

spark-submit 和 spark-submit --master local 效果是一樣的

（同理：spark-shell 和 spark-shell --master local 效果是一樣的）

spark-submit --master local[4] 代表會有4個執行緒（每個執行緒一個core）來併發執行應用程式。

執行該模式非常簡單，只需要把Spark的安裝包解壓後，改一些常用的配置即可使用，而不用啟動Spark的Master、Worker守護程序( 只有叢集的Standalone方式時，才需要這兩個角色)，也不用啟動Hadoop的各服務（除非你要用到HDFS），這是和其他模式的區別哦，要記住才能理解。

那麼，這些執行任務的執行緒，到底是共享在什麼程序中呢？

我們用如下命令提交作業：

spark-submit --class JavaWordCount --master local[10] JavaWordCount.jar file:///tmp/test.txt

可以看到，在程式執行過程中，只會生成一個SparkSubmit程序。

這個SparkSubmit程序又當爹、又當媽，既是客戶提交任務的Client程序、又是Spark的driver程式、還充當著Spark執行Task的Executor角色。

這裡有個小插曲，因為driver程式在應用程式結束後就會終止，那麼如何在web介面看到該應用程式的執行情況呢，需要如此這般：（如下圖所示）

先在spark-env.sh 增加SPARK_HISTORY_OPTS；

然後啟動start-history-server.sh服務；

就可以看到啟動了HistoryServer程序，且監聽埠是18080。

之後就可以在web上使用http://hostname:18080愉快的玩耍了。

2，測試或實驗性質的本地偽叢集執行模式（單機模擬叢集）

這種執行模式，和Local[N]很像，不同的是，它會在單機啟動多個程序來模擬叢集下的分散式場景，而不像Local[N]這種多個執行緒只能在一個程序下委屈求全的共享資源。通常也是用來驗證開發出來的應用程式邏輯上有沒有問題，或者想使用Spark的計算框架而沒有太多資源。

用法是：提交應用程式時使用local-cluster[x,y,z]

引數：x代表要生成的executor數，y和z分別代表每個executor所擁有的core和memory數。

spark-submit --master local-cluster[2, 3, 1024]

（同理：spark-shell --master local-cluster[2, 3, 1024]用法也是一樣的）

上面這條命令代表會使用2個executor程序，每個程序分配3個core和1G的記憶體，來執行應用程式。可以看到，在程式執行過程中，會生成如下幾個程序：

SparkSubmit依然充當全能角色，又是Client程序，又是driver程式，還有點資源管理的作用。生成的兩個CoarseGrainedExecutorBackend，就是用來併發執行程式的程序。它們使用的資源如下：

執行該模式依然非常簡單，只需要把Spark的安裝包解壓後，改一些常用的配置即可使用。而不用啟動Spark的Master、Worker守護程序( 只有叢集的standalone方式時，才需要這兩個角色)，也不用啟動Hadoop的各服務（除非你要用到HDFS），這是和其他模式的區別哦，要記住才能理解。

3，Spark自帶Cluster Manager的Standalone Client模式（叢集）

和單機執行的模式不同，這裡必須在執行應用程式前，先啟動Spark的Master和Worker守護程序。不用啟動Hadoop服務，除非你用到了HDFS的內容。

start-master.sh

start-slave.sh -h hostname url:master

圖省事，可以在想要做為Master的節點上用start-all.sh一條命令即可，不過這樣做，和上面的分開配置有點差別，以後講到資料本地性如何驗證時會說。

啟動的程序如下：（其他非Master節點上只會有Worker程序）

這種執行模式，可以使用Spark的8080 web ui來觀察資源和應用程式的執行情況了。

可以看到，當前環境下，我啟動了8個worker程序，每個可使用的core是2個，記憶體沒有限制。

言歸正傳，用如下命令提交應用程式

spark-submit --master spark://wl1:7077

或者 spark-submit --master spark://wl1:7077 --deploy-mode client

代表著會在所有有Worker程序的節點上啟動Executor來執行應用程式，此時產生的JVM程序如下：（非master節點，除了沒有Master、SparkSubmit，其他程序都一樣）

Master程序做為cluster manager，用來對應用程式申請的資源進行管理；

SparkSubmit 做為Client端和執行driver程式；

CoarseGrainedExecutorBackend 用來併發執行應用程式；

注意，Worker程序生成幾個Executor，每個Executor使用幾個core，這些都可以在spark-env.sh裡面配置，此處不在囉嗦。

4，spark自帶cluster manager的standalone cluster模式（叢集）

這種執行模式和上面第3個還是有很大的區別的。使用如下命令執行應用程式（前提是已經啟動了spark的Master、Worker守護程序）不用啟動Hadoop服務，除非你用到了HDFS的內容。

spark-submit --master spark://wl1:6066 --deploy-mode cluster

各節點啟動的JVM程序情況如下：

master節點上的程序

提交應用程式的客戶端上的程序

某worker節點上的程序

區別1，客戶端的SparkSubmit程序會在應用程式提交給叢集之後就退出

區別2，Master會在叢集中選擇一個Worker程序生成一個子程序DriverWrapper來啟動driver程式

區別3，而該DriverWrapper 程序會佔用Worker程序的一個core，所以同樣的資源下配置下，會比第3種執行模式，少用1個core來參與計算(觀察下圖executor id 7的core數)

區別4，應用程式的結果，會在執行driver程式的節點的stdout中輸出，而不是列印在螢幕上

5，基於YARN的Resource Manager的Client模式（叢集）

現在越來越多的場景，都是Spark跑在Hadoop叢集中，所以為了做到資源能夠均衡排程，會使用YARN來做為Spark的Cluster Manager，來為Spark的應用程式分配資源。

在執行Spark應用程式前，要啟動Hadoop的各種服務。由於已經有了資源管理器，所以不需要啟動Spark的Master、Worker守護程序。相關配置的修改，請自行研究。

使用如下命令執行應用程式

spark-submit --master yarn

或者 spark-submit --master yarn --deploy-mode client

提交應用程式後，各節點會啟動相關的JVM程序，如下：

在Resource Manager節點上提交應用程式，會生成SparkSubmit程序，該程序會執行driver程式。

RM會在叢集中的某個NodeManager上，啟動一個ExecutorLauncher程序，來做為

ApplicationMaster。另外，也會在多個NodeManager上生成CoarseGrainedExecutorBackend程序來併發的執行應用程式。

對應的YARN資源管理的單元Container，關係如下：

為ApplicationMaster生成了容器 000001;

為CoarseGrainedExecutorBackend生成了容器 000002-000003

6，基於YARN的Resource Manager的Custer模式（叢集）

使用如下命令執行應用程式:

spark-submit --master yarn --deploy-mode cluster

和第5種執行模式，區別如下：

在Resource Manager端提交應用程式，會生成SparkSubmit程序，該程序只用來做Client端，應用程式提交給集群后，就會刪除該程序。

Resource Manager在叢集中的某個NodeManager上執行ApplicationMaster，該AM同時會執行driver程式。緊接著，會在各NodeManager上執行CoarseGrainedExecutorBackend來併發執行應用程式。

應用程式的結果，會在執行driver程式的節點的stdout中輸出，而不是列印在螢幕上。

對應的YARN資源管理的單元Container，關係如下：

為ApplicationMaster生成了容器 000001

為CoarseGrainedExecutorBackend生成了容器 000002-000003

當然，3-6這幾種執行模式，你也可以在一臺單機上玩，前提是你的伺服器足夠牛，同時你也足夠無聊。

Spark多種執行模式

Spark多種執行模式

spark多種執行模式【基於原理講述】

Spark多種運行模式

IntelliJ IDEA Spark程式本地模式執行消除日誌輸出INFO資訊

spark執行模式 standlone mesos yarn

Spark執行模式詳解

Spark的分散式執行模式 Local，Standalone, Spark on Mesos, Spark on Yarn, Kubernetes

Spark 執行模式

spark on mesos 兩種執行模式

spark執行模式中的一些錯誤

Spark程式設計指南之四：Spark分散式叢集模式的執行時系統架構

Spark Client和Cluster兩種執行模式的工作流程

spark 執行模式的簡單總結

Spark執行模式（一）－－－－－Spark獨立模式

Spark執行模式概述

蝸龍徒行-Spark學習筆記【五】IDEA中叢集執行模式的配置

Spark四種執行模式

spark在yarn上面的執行模型：yarn-cluster和yarn-client兩種執行模式:

spark部分：spark的四種執行模式，Spark 比 MapReduce 快的原因，spark執行程式流程，spark運算元種類，spark持久化運算元，cache 和 persist，調節引數的方式

Spark 的幾種執行模式

Spark多種執行模式

相關推薦