Spark--Standalone部署模式

阿新 • • 發佈：2020-12-16

Standalone部署模式

獨立部署模式，自身除了計算，也負責資源的排程。

叢集規劃

	hadoop101	hadoop102	hadoop103
Spark	Worker(Master)	Worker	Worker

安裝檔案

spark-3.0.1-bin-hadoop2.7.tgz

將其解壓縮

tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/module

修改配置檔案

（1）進入到解壓縮之後對應檔案的conf資料夾下，修改salves.template檔名為slaves

mv salves.template salves

（2）修改slaves檔案，新增worker節點

hadoop101
hadoop102
hadoop103

（3）修改spark-env.sh.template檔名為spark-env.sh

mv spark-env.sh.template spark-env.sh

（4）修改spark-env.sh檔案，新增Java的環境變數，設定叢集的Master節點

export JAVA_HOME=/opt/module/jdk1.8.0_144 
SPARK_MASTER_HOST=hadoop101 
SPARK_MASTER_PORT=7077

7077埠是spark叢集內部通訊的埠

（5）分發當前spark的安裝目錄

xsync spark

啟動叢集

（1）在spark的安裝目錄下執行啟動指令碼命令：

sbin/start-all.sh

（2）檢視三臺伺服器的程序資訊

xcall jps

（3）檢視Master資源監控的Web介面

http://hadoop101:8080

提交測試應用

spark自帶了用於測試的樣例應用，已經打包成了Jar包，現在拿來測試

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop101:7077 ./examples/jars/spark-examples_2.12-3.0.1.jar 10

引數說明：

--class 表示要執行程式的主類

--master spark://hadoop101:7077 獨立部署模式，連線到Spark叢集，地址為master地址

spark-examples_2.12-3.0.1.jar 執行類所在的jar包

數字10 表示程式的入口引數，用於設定當前應用的任務數量

配置歷史服務

配置歷史服務是為了能夠記錄任務的執行情況，以便於檢視。

（1）修改spark-defaults.conf.template檔名為spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

（2）修改spark-defaults.conf檔案，新增日誌儲存路徑資訊

spark.eventLog.enabled  true
spark.eventLog.dir  hdfs://hadoop101:9000/directory

注意：需要啟動hadoop叢集，HDFS上的directory目錄需要提前存在

sbin/start-dfs.sh
hadoop fs -mkdir /directory

（3）修改spark-env.sh檔案，新增日誌配置

export SPARK_HISTORY_OPTS=" 
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop101:9000/directory 
-Dspark.history.retainedApplications=30"

引數含義：

引數1 ：歷史伺服器頁面，埠號為18080
引數2：指定歷史伺服器日誌儲存路徑
引數3：指定儲存application歷史記錄的個數，如果超過這個值，舊的應用程式將被刪除，這個是記憶體中的應用數量，不是頁面上顯示的應用數。

（4）分發配置檔案

xsync conf

（5）重新啟動spark叢集和歷史伺服器

sbin/start-all.sh 
sbin/start-history-server.sh

（6）重新執行測試應用的任務

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop101:7077 ./examples/jars/spark-examples_2.12-3.0.1.jar 10

（7）歷史伺服器的檢視地址：http://hadoop101:18080

配置高可用

配置高可用是因為當前叢集中的Master節點只有一個，所以會存在單點故障問題。所以為了解決單點故障問題，需要在叢集中配置多個Master節點，一旦處於活動狀態的Master發生故障時，由備用Master提供服務，保證作業可以繼續執行。這裡的高可用一般採用Zookeeper設定。

叢集規劃

	hadoop101	hadoop102	hadoop103
Spark	Zookeeper、Master、Worker	Zookeeper、Master、Worker	Zookeeper、Worker

（1）啟動zookeeper叢集

zk.sh start

（2）修改spark-env.sh檔案，新增如下配置

註釋如下內容： 
#SPARK_MASTER_HOST=hadoop101 
#SPARK_MASTER_PORT=7077

新增如下內容: 
#Master監控頁面預設訪問埠為8080，但是可能會和Zookeeper 衝突，所以改成8989，也可以自定義，訪問UI監控頁面時請注意 
SPARK_MASTER_WEBUI_PORT=8989
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=hadoop101,hadoop102,hadoop103 
-Dspark.deploy.zookeeper.dir=/spark"

（3）分發配置檔案

xsync conf/

（4）啟動叢集

sbin/start-all.sh

（5）啟動hadoop102的單獨Master節點，此時hadoop102節點Master狀態處於備用狀態

sbin/start-master.sh

（6）提交測試應用到高可用叢集

bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://hadoop101:7077,hadoop102:7077 ./examples/jars/spark-examples_2.12-3.0.1.jar 10

（7）可將hadoop101的master程序殺掉

kill -9 程序號

（8）進入地址：hadoop102:8989的頁面，過一會兒會發現，hadoop102節點的master狀態提升為活動狀態。

Spark--Standalone部署模式

Standalone部署模式獨立部署模式，自身除了計算，也負責資源的排程。叢集規劃

Spark Standalone模式高可用部署

本文使用Spark的版本為：spark-2.4.0-bin-hadoop2.7.tgz。 spark的叢集採用3臺機器進行搭建，機器分別是server01，server02,server03。

Spark StandAlone模式和On Yarn模式搭建

Spark StandAlone模式和On Yarn模式搭建 Spark StandAlone模式上傳並解壓 tar -zxvf spark-3.0.2-bin-hadoop3.2.tgz -C /data/soft/

spark 四種模式

Spark三種執行模式一：Spark On Local 此種模式下，我們只需要在安裝Spark時不進行hadoop和Yarn的環境配置，只要將Spark包解壓即可使用，執行時Spark目錄下的bin目錄執行bin/spark-shell即可

Python工程師的大資料之路（七a）Hadoop,ZooKeeper,HIVE,Spark叢集部署

技術標籤：大資料 JDK,Hadoop,ZooKeeper,HIVE,Spark一波流安裝 1、環境說明2、網路配置和免密登入3、環境變數4、MySQL安裝5、解壓Java,Hadoop,ZooKeeper,HIVE,Spark6、配置檔案6.1、Hadoop配置6.2、ZooKeeper配

spark之yarn模式搭建

技術標籤：sparkspark spark之yarn模式搭建 1.安裝2.配置2.1 conf的spark-env.sh2.2 修改環境變數

Spark Yarn Cluster 模式啟動流程原始碼分析

spark-submit.s 首先由spark-submit.sh指令碼提交任務： if [ -z "${SPARK_HOME}" ]; then

Flink 部署模式，session 、pre job、aplication三種主要模式

長久以來，在YARN叢集中部署Flink作業有兩種模式，即Session Mode和Per-Job Mode，而在Flink 1.11版本中，又引入了第三種全新的模式：Application Mode。本文先回顧兩種傳統模式的做法與存在的問題，再簡要介紹Appl

angular和spring boot的standalone部署

前言雖然前後端分離是現在主流的開發模式，但是我不認為前後端分離就意味著前後端部署，部署的時候也可以將前端打包後的資原始檔放在jar包裡，成為後端的一部分。

spark叢集部署

Spark叢集部署 1、背景知識 Spark有3種叢集部署模式,分別是Standalone、Mesos和YARN，這3種模式都屬於master/slave模式。

大資料Hadoop-Spark叢集部署知識總結（一）

大資料Hadoop-Spark叢集部署知識總結一、啟動/關閉 hadoop myhadoop.sh start/stop 分步啟動：

.NET的兩種部署模式，瞭解一下

前言以往部署程式一直是習慣性先安裝執行時環境，然後再將釋出打包好的程式執行起來；但當多個程式依賴不同版本框架平臺時，如果部署在同一臺機器上，那就需要在同一臺機器上安裝多個版本的執行時，總感覺有點不太方

Spark學習（三）Spark 分散式部署

一、Yarn 部署簡介　　Spark自身提供計算資源，無需其他框架提供資源。But 這種方式降低了和其他第三方資源框架的耦合性，獨立性非常強。請注意：Spark主要是計算框架，而不是資源排程框架，所以本身提供的資源排程

Spark3.0 Standalone模式部署

之前介紹過Spark 1.6版本的部署，現在最新版本的spark為3.0.1並且已經完全相容hadoop 3.x，同樣仍然支援RDD與DataFrame兩套API，這篇文章就主要介紹一下基於Hadoop 3.x的Spark 3.0部署，首先還是官網下載安裝包，下載

理解Spark執行模式（三）(STANDALONE和Local)

前兩篇介紹了Spark的yarn client和yarn cluster模式，本篇繼續介紹Spark的STANDALONE模式和Local模式。

一文搞定Spark叢集的安裝（Standalone模式）

前幾天安裝了Hadoop叢集，還沒有安裝的參考：搭建叢集hadoop - wanpi - 部落格園 (cnblogs.com)

Flink1.13.2版本 Standalone 模式部署

Flink的部署有3種模式，分別是local模式、Standalone模式、yarn模式。其中local就是單機模式，一般來說用於本地開發測試；Standalone跟yarn模式都可以支撐叢集部署、實現HA，但是兩者在任務分配機制、記憶體管理等內

Spark 執行模式（Standalone 模式）

1、Driver & Executor Driver & Executor 是Spark 叢集中兩個非常重要的角色； 2、Standalone 模式

K8S平臺基於SideCar模式的Java應用部署方式

SideCar模式介紹 SideCar中文譯為邊車，是附著在摩托車旁的小型車輛，用於載客。在程式設計世界中，其主要功能是將主應用與外圍輔助服務進行解耦，提供更靈活的應用部署方式。其理念符合設計模式中的單一職責原則，

Flink 系列（八）—— Flink Standalone 叢集部署

一、部署模式 Flink 支援使用多種部署模式來滿足不同規模應用的需求，常見的有單機模式，Standalone Cluster 模式，同時 Flink 也支援部署在其他第三方平臺上，如 YARN，Mesos，Docker，Kubernetes 等。以下主要介紹

Spark--Standalone部署模式

Standalone部署模式

叢集規劃

安裝檔案

修改配置檔案

啟動叢集

提交測試應用

配置歷史服務

配置高可用

叢集規劃

相關推薦