運行Spark程序的幾種模式

阿新 • • 發佈：2017-11-07

etc 屏幕角色 ast java_home enabled driver env ram

一. local 模式 -- 所有程序都運行在一個JVM中，主要用於開發時測試
無需開啟任何服務，可直接運行 ./bin/run-example 或 ./bin/spark-submit 如：
./bin/run-example SparkPi 10
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[4] ./examples/jars/spark-examples_2.11-2.1.1.jar 100
local[4] 代表會有4個線程（每個線程一個core）來並發執行應用程序。

此模式下，
1. 這個SparkSubmit進程又當爹、又當媽，既是客戶提交任務的Client進程、又是Spark的driver程序、還充當著Spark執行Task的Executor角色
2.程序的運行狀態可通過 http://<driver-node>:4040 查看，但是這是臨時的，程序運行完後，這個UI也就失效了。我們可以啟動Spark History Server，這
樣就可以看到歷史運行程序的信息了。

開啟Spark History Server，可以在spark-defaults.conf裏配置如下信息：
spark.eventLog.enabled true
spark.eventLog.dir hdfs://ubuntu1:9000/spark/eventlog
spark.history.fs.logDirectory hdfs://ubuntu1:9000/spark/eventlog

通過： 192.168.137.11:18080 訪問 history server //如果啟動history的話

二. 測試或實驗性質的本地偽集群運行模式（單機模擬集群） -- 在單機啟動多個進程來模擬集群下的分布式場景

無需開啟任何服務，可直接運行如下命令：
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local-cluster[2,3,512] ./examples/jars/spark-examples_2.11-2.1.1.jar 20
local-cluster[x,y,z]參數：x代表要生成的executor數，y和z分別代表每個executor所擁有的core和memory數。
遇到的問題：sc.executorMemory默認值是1024M,如果我們設置的z的值比1024小的話，就會拋錯。可以在spark-defaults.conf 裏配置sc.executorMemory的大小。如：
spark.executor.memory 512m
設置成512(單位M)的原因是：用的是本地VM，總共內存也沒多少。但是如果設置小於450m的話，還是會報錯。
此模式下：SparkSubmit依然充當全能角色，又是Client進程，又是driver程序，還有點資源管理的作用

三. Spark自帶Cluster Manager的Standalone Client模式（集群）

需要先啟動Spark的Master和Worker守護進程。提交一個任務的命令如下：
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://ubuntu1:7077 ./examples/jars/spark-examples_2.11-2.1.1.jar 100
此模式下，1. 會在所有有Worker進程的節點上啟動Executor來執行應用程序。
2. Master進程做為cluster manager，用來對應用程序申請的資源進行管理；
3. SparkSubmit 做為Client端和運行driver程序；
4. 運行結果在Shell裏可見
註意，Worker進程生成幾個Executor，每個Executor使用幾個core，這些都可以在spark-env.sh裏面配置

需要配置項：
1. slaves 文件
2. spark-env.sh
export JAVA_HOME=/opt/programs/jdk1.8.0_131
export SPARK_MASTER_IP=ubuntu1
export SPARK_WORKER_CORES=2
export SPARK_EXECUTOR_MEMORY=512m
export SPARK_WORKER_MEMORY=512m
export SPARK_DRIVER_MEMORY=512m

提交一個Spark程序後，可以通過下面的UI查看任務運行狀態。
UI: 192.168.137.11:8080
192.168.137.11:18080 //如果啟動history的話

四. spark自帶cluster manager的standalone cluster模式（集群）

需要先啟動Spark的Master和Worker守護進程。提交一個任務的命令如下：
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://ubuntu1:7077 --deploy-mode cluster ./examples/jars/spark-examples_2.11-2.1.1.jar 50
此模式下，1. 客戶端的SparkSubmit進程會在應用程序提交給集群之後就退出。所以在shell裏，運行結果不可見
2. Master會在集群中選擇一個Worker進程生成一個子進程DriverWrapper來啟動driver程序
3. 而該DriverWrapper 進程會占用Worker進程的一個core，所以同樣的資源下配置下，會比第3種運行模式，少用1個core來參與計算
4. 應用程序的結果，會在執行driver程序的節點的stdout中輸出

需要配置項：同（三）

五. 基於YARN的Resource Manager的Client模式（集群）
需要先啟動 Hadoop 的 YARN。不需要啟動Spark的Master、Worker守護進程。運行如下命令
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client ./examples/jars/spark-examples_2.11-2.1.1.jar 100
此模式下：1. 在Resource Manager節點上提交應用程序，會生成SparkSubmit進程，該進程會執行driver程序。
2. RM會在集群中的某個NodeManager上，啟動一個ExecutorLauncher進程，來做為ApplicationMaster
3. 也會在多個NodeManager上生成CoarseGrainedExecutorBackend進程來並發的執行應用程序

Yarn 集群模式需要配置項：
1. spark-env.sh
export JAVA_HOME=/opt/programs/jdk1.8.0_131
export HADOOP_HOME=/opt/programs/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=/opt/programs/spark-2.1.1-bin-hadoop2.7

六. 基於YARN的Resource Manager的Cluster模式（集群）
需要先啟動 Hadoop 的 YARN。不需要啟動Spark的Master、Worker守護進程。運行如下命令
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ./examples/jars/spark-examples_2.11-2.1.1.jar 100
此模式下：1. 在Resource Manager端提交應用程序，會生成SparkSubmit進程，該進程只用來做Client端，應用程序提交給集群後，就會刪除該進程。
2. Resource Manager在集群中的某個NodeManager上運行ApplicationMaster，該AM同時會執行driver程序
3. 緊接著，會在各NodeManager上運行CoarseGrainedExecutorBackend來並發執行應用程序
4. 應用程序的結果，會在執行driver程序的節點的stdout中輸出，而不是打印在屏幕上。

Yarn 集群模式需要配置項：同(五)

運行Spark程序的幾種模式

etc 屏幕角色 ast java_home enabled driver env ram 一. local 模式 -- 所有程序都運行在一個JVM中，主要用於開發時測試無需開啟任何服務，可直接運行 ./bin/run-example 或 ./bin/spark-

ASP.NET MVC 提高運行速度的幾種性能優化方法

服務排隊等待谷歌搜索部署 lan str run 提高主要介紹ASP.NETMVC 應用提速的六種方法，因為沒有人喜歡等待，所以介紹幾種常用的優化方法。大家可能會遇到排隊等待，遇到紅燈要等待，開個網頁要等待，等等等。理所當然，沒有人喜歡等待網頁慢吞吞地加載

查看某個進程運行時間的幾種方法

dir -h true pen rar sta 運行時間 native jdk1 1.首先查出某個進程的pid，然後使用ps命令 [root@hadoop1 ~]# jps 2640 Jps 2339 DataNode 2239 NameNode [root@hadoop

spark的幾種模式的比較

在spark的學習中，spark一共有四種模式，分別是： spark基於local spark基於standalone spark基於yarn spark基於metsos Standalone模式兩種提交任務方式 Standalone-cli

linux環境下編譯運行OpenCV程序的兩種方法

https 鏈接庫 pen vco ons 程序 TP uil htm 一、命令行Command Line 1 g++ opencv_test.cpp -o opencv_test `pkg-config --cflags --libs opencv` 2 ./op

spark 環境搭建及幾種模式測試

spark 環境搭建及幾種模式測試 spark安裝部署spark安裝前的環境準備需要安裝jdk、scala、hadoop作為前提環境。 1、安裝jdk1.7 先解除安裝自帶的jdk，防止自帶的jdk和安裝的出現衝突。而且自帶的版本較低不能滿足現在軟體對jdk的要求。使用

Spark spark-submit 提交的幾種模式

local 模式程式碼 package com.imooc.spark.Test import org.apache.spark.sql.types.{StringType, StructField, StructType} import org

Spark 的幾種執行模式

浪費了“黃金五年”的Java程式設計師，還有救嗎？ >>>

C#計算一段程序運行時間的三種方法

stop open isp shu sdn clas ref phone not 親測有效~ 直接代碼：第一種方法利用System.DateTime.Now 1 public static void SubTest()

如何運行linux程序

linux程序執行文件運行程序 source 解釋器導讀搞懂linux程序如何運行是一件重要的事情，這是為我們進一步發展打下了堅實基礎的一步。本文將通過實例來詳細地講解如何運行linux程序。希望對於大家理解有幫助。首先，我們從一個十分簡單的例子test.sh開始吧：#!/bin/s

將已經運行的程序放到後端執行

linux 後端執行 Linux 將已經運行的程序放到後端執行1. Ctrl+Z # 暫停程序並返回到shell中 2. bg # 將程序放在後端執行 3. disown -h [job-spec] # 當終端關閉時，該作

Docker4Windows -- 從外部（非本機host）訪問由docker container運行的程序

style 機器轉發配置 tin 外部 acl 16px 轉發規則背景當我們在windows 上面運行docker container的時候，我們需要借助於模擬器（例如，Virtual box/Hyper V），她的目的主要是在我們的windows系統上面模擬出一

'mingw32-make' 不是內部或外部命令，也不是可運行的程序或批處理文件。（的解決方案）

windows 外部命令搜索方案 win mage -m 分享 image 問題如上。解決方案：找到mingw32-make，方法是在計算中搜索然後將其復制到C：Windows\System32下，需要管理員權限才能復制的情況下直接點繼續。然後就可以了。

解決運行pytorch程序多線程問題

org int blank htm 使用大量 reads 服務器 exp 當我使用pycharm運行 (https://github.com/Joyce94/cnn-text-classification-pytorch ) pytorch程序的時候，在Linux服

eclipse 運行 mapreduce程序報錯 No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).

ads 不變 load style 程序 ble .class loader val 報錯信息 17/07/06 17:00:27 WARN mapred.JobClient: Use GenericOptionsParser for parsing the argumen

運行Spark程序的幾種模式

運行Spark程序的幾種模式

ASP.NET MVC 提高運行速度的幾種性能優化方法

查看某個進程運行時間的幾種方法

spark的幾種模式的比較

linux環境下編譯運行OpenCV程序的兩種方法

spark 環境搭建及幾種模式測試

Spark spark-submit 提交的幾種模式

Spark 的幾種執行模式

C#計算一段程序運行時間的三種方法

如何運行linux程序

將已經運行的程序放到後端執行

Docker4Windows -- 從外部（非本機host）訪問由docker container運行的程序

'mingw32-make' 不是內部或外部命令，也不是可運行的程序或批處理文件。（的解決方案）

解決運行pytorch程序多線程問題

eclipse 運行 mapreduce程序報錯 No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).

搭建TensorFlow中碰到的一些問題（TensorBoard不是內部或外部指令也不是可運行的程序）~

linux後臺運行jar程序

cmd運行exe程序小Demo

linux下使用gcc編譯運行C程序

在Windows下MyEclipse運行JAVA程序連接HBASE讀取數據出錯

運行Spark程序的幾種模式

相關推薦