spark叢集部署

阿新 • • 發佈：2021-12-27

Spark叢集部署

1、背景知識

Spark有3種叢集部署模式,分別是Standalone、Mesos和YARN，這3種模式都屬於master/slave模式。

Standalone獨立模式，Spark 原生的簡單叢集管理器，自帶完整的服務，可單獨部署到一個叢集中，無需依賴任何其他資源管理系統，使用 Standalone 可以很方便地搭建一個叢集，一般在公司內部沒有搭建其他資源管理框架的時候才會使用。
Mesos模式，一個強大的分散式資源管理框架，它允許多種不同的框架部署在其上，包括 yarn，由於mesos這種方式目前應用的比較少，這裡沒有記錄mesos的部署方式。
YARN模式：統一的資源管理機制，在上面可以執行多套計算框架，如map reduce、storm 等，根據 driver 在叢集中的位置不同，分為 yarn client 和 yarn cluster。

由於在實際工廠環境下使用的絕大多數的叢集管理器是 Hadoop YARN，因此我們關注的重點是 Hadoop YARN 模式下的 Spark 叢集部署。

2、使用軟體及其版本

環境

虛擬機器:VirtualBox 6.0.24 r139119

Linux:CentOS 7

Windows:Windows10

軟體

Spark

工具

遠端連線工具:XShell6

SFTP工具:FileZilla3.33.0

3、目標

Spark叢集部署

4、操作步驟

下載Spark

在Spark官網`http://spark.apache.org/downloads.html

,下載spark。

由於前面使用的hadoop是hadoop2.6的cdh5.7版本，官網並沒有直接提供，只能在官網下載二進位制的版本，進行重新編譯
安裝Spark

Spark On YARN模式中無須單獨部署Spark叢集，其本質是將Spark程式提交到Hadoop叢集的YARN中執行，此時的Spark只作為提交程式的客戶端，由於前面已經部署好了Hadoop高可用叢集，所以只需要在master節點部署即可
1. 上傳spark安裝包到master節點，解壓安裝，使用命令
  
  tar -zxvf spark-2.4.7-bin-hadoop2.6.tgz -C ~/app/
2. 修改配置檔案
  
  進入spark安裝目錄下的conf目錄
  1. 修改spark-en.sh檔案，使用命令
    
    cp spark-env.sh.template spark-env.sh
    
    複製spark-env.sh檔案，進行編輯，使用命令
    
    sudo vi spark-env.sh
    
    在末尾新增配置資訊
```
export JAVA_HOME=/home/hadoop/app/jdk1.8.0_131
export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
```
  2. 修改master主機中hadoop目錄中的/etc/hadoop下的yarn-site.xml，使用命令
    
    sudo vi yarn-site.xml
    
    新增配置內容內容
```
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
   <value>false</value>
</property>
<property>
   <name>yarn.nodemanager.vmem-check-enabled</name>
   <value>false</value>
</property>
```
    - yarn.nodemanager.pmem-check-enabled：是否啟動一個執行緒檢查每個任務正使用的實體記憶體量，如果任務超出分配值，則直接將其殺掉，預設是true
    - yarn.nodemanager.vmem-check-enabled：是否啟動一個執行緒檢查每個任務正使用的虛擬記憶體量，如果任務超出分配值，則直接將其殺掉，預設是true
  3. 分發yarn-site.xml到slave01，slave02，使用命令
```
scp yarn-site.xml hadoop@slave01:~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
scp yarn-site.xml hadoop@slave02:~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop
```
3. 修改環境變數
  
  使用命令
  
  sudo vi /etc/profile
  
  新增配置資訊
```
export SPARK_HOME=/home/hadoop/app/spark-2.4.7-bin-hadoop2.6
export PATH=$SPARK_HOME/bin:$PATH
```
  使用source /etc/profile命令，使配置生效。
4. 驗證
  
  使用yarn方式啟動spark，使用命令：
  
  spark-shell --master yarn --deploy-mode client,進入spark-shell互動介面
  
  可以看到使用的yarn方式，spark版本是2.4.7，scala的版本是2.11.12，顯示上述介面，表示Spark on Yarn 部署成功!
5. Spark叢集測試
  1. 使用Spark官方提供的示例SparkPi，進行叢集測試，驗證spark任務是否可以成功提交到yarn中執行，使用命令：
```
spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 1 \
/home/hadoop/app/spark-2.4.7-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.7.jar 10
```
  - --class:呼叫最後一行中jar包指定類。
  - --master yarn:指定spark任務提交到yarn執行。
  - deploy-mode cluster:指定spark on yarn的執行模式為client,便於檢視輸出結果。
  - driver-memory 2g:指定每個Driver的可用記憶體為2GB。
  - executor-memory 1g:指定每個Executor的可用記憶體為1GB。
  - executor-cores 1:指定每個Executor使用cup的核心數為一
  1. 執行完上述命令後，在瀏覽器輸入http://192.168.137.2:8088檢視yarn管理介面
    
    可以看到任務已經提交到yarn叢集之上。
    
    點選任務ID,進入介面
    
    點選logs連結，進入介面
    
    點選輸出日誌
    
    可以看到輸出結果

5、總結

Python工程師的大資料之路（七a）Hadoop,ZooKeeper,HIVE,Spark叢集部署

技術標籤：大資料 JDK,Hadoop,ZooKeeper,HIVE,Spark一波流安裝 1、環境說明2、網路配置和免密登入3、環境變數4、MySQL安裝5、解壓Java,Hadoop,ZooKeeper,HIVE,Spark6、配置檔案6.1、Hadoop配置6.2、ZooKeeper配

spark叢集部署

Spark叢集部署 1、背景知識 Spark有3種叢集部署模式,分別是Standalone、Mesos和YARN，這3種模式都屬於master/slave模式。

大資料Hadoop-Spark叢集部署知識總結（一）

大資料Hadoop-Spark叢集部署知識總結一、啟動/關閉 hadoop myhadoop.sh start/stop 分步啟動：

spark叢集安裝部署

1.在官網下載spark安裝包 # wget https://archive.apache.org/dist/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz

插曲：Kafka的叢集部署實踐及運維相關

前言上一篇 Kafka 的文章 --- 插曲：大白話帶你認識Kafka 中我們應該已經瞭解了一些關於基礎角色和叢集架構相關的問題，這時候我們應該很想了解一下如何構建生產中的Kafka叢集或者一些相關的運維工具，所以就應運而

Flink 系列（八）—— Flink Standalone 叢集部署

一、部署模式 Flink 支援使用多種部署模式來滿足不同規模應用的需求，常見的有單機模式，Standalone Cluster 模式，同時 Flink 也支援部署在其他第三方平臺上，如 YARN，Mesos，Docker，Kubernetes 等。以下主要介紹

Ceph叢集部署

一概述 1.1 背景近期進行公司業務容器化改造，在為kubernetes提供儲存選型方面，在選型中本地儲存不可跨node，NFS共享儲存不好做高可用，因此選型Ceph來為k8s提供儲存類。特此筆記以備後用。

MongoDB分片叢集部署詳解

一、環境說明 1、我們prod環境MongoDB的叢集架構是做的分片叢集的部署，但是目前我們沒有分片，即所有資料都在一個分片上，後期如果數量大，需要分配，叢集隨時可以分片，對業務方透明

Flink 叢集搭建,Standalone,叢集部署,HA高可用部署

基礎環境準備3臺虛擬機器器配置無密碼登入配置方法:https://ipooli.com/2020/04/linux_host/

5000+字硬核乾貨！Redis 分散式叢集部署實戰

原理： Redis叢集採用一致性雜湊槽的方式將叢集中每個主節點都分配一定的雜湊槽，對寫入的資料進行雜湊後分配到某個主節點進行儲存。

Docker中提交任務到Spark叢集

1. 背景描述和需求資料分析程式部署在Docker中，有一些分析計算需要使用Spark計算，需要把任務提交到Spark叢集計算。

02 . 分散式儲存之FastDFS 高可用叢集部署

單節點部署和原理請看上一篇文章 https://www.cnblogs.com/you-men/p/12863555.html 環境 [Fastdfs-Server]

Kubernetes（k8s）之jenkins實現k8s應用的版本升級和迴歸，k8s叢集部署專案

1、想要實現jenkins一鍵自動釋出程式碼的話，還需要手動在k8s部署一下叢集專案。首先，建立一個deloypment，如下所示：

50. Tomcat 叢集部署

1.JVM基本介紹 JAVA業務都是執行在java虛擬機器上的，簡稱 jvm （ java virtual machine ）

【Redis學習專題】- Redis主從+哨兵叢集部署

叢集版本: redis-4.0.14 叢集節點: 節點角色 IP redis-master 10.100.8.21 redis-slave1 10.100.8.22 redis-slave2

k8s之etcd叢集部署

第一步：系統基本設定。（所有機器都要做） 1 關閉防火牆，selinux systemctl stop firewalld

ZooKeeper叢集部署指南

一、前言 1、ZooKeeper簡介 ZooKeeper是一個開源的分散式應用程式協調服務，是Google的Chubby一個開源的實現。ZooKeeper為分散式應用提供一致性服務，提供的功能包括：分散式同步（Distributed Synchronization）、命

Kafka的叢集部署與基本的命令列操作

　　KafKa叢集是依賴於zookeeper的，所以想要部署一個分散式的KafKa叢集，首先需要搭建一個Zookeeper叢集，至於如何搭建zookeeper叢集，在我的另一篇博文裡已經說過了，這裡不再講述。安裝好zookeeper叢集以後，部署

k8s之叢集部署（二進位制部署）

k8s叢集分為三個部分。如下圖所示 1.master節點 2.node節點 3.etcd儲存部署master.com節點

Kafka叢集部署（守護程序啟動）

1、Kafka叢集部署 1.1叢集部署的基本流程下載安裝包、解壓安裝包、修改配置檔案、分發安裝包、啟動叢集

spark叢集部署