Spark的部署及使用：2.hadoop+spark的HA搭建

阿新 • • 發佈：2019-01-11

上章中，完全分散式叢集僅對namenode做了備份，並未對resourcemanager做備份，切不能自動切換主備，在生產環境中是十分危險的，本章將介紹一種HA的spark分散式計算叢集的搭建方式。

一、安裝前的準備

(1) jdk1.8.0_171.zip

(2)scala-2.11.1.tgz

(3)zookeeper-3.4.10.tar.gz

(4)hadoop-3.0.3.tar.gz

(5)spark-2.3.1-bin-hadoop2.7.tgz

伺服器準備及角色規劃：

10.10.10.1 spark01 namenode(active) resourcemanager(active) zookeeper

10.10.10.2 spark02 namenode(standby) zookeeper

10.10.10.3 spark03 resourcemanager(standby) zookeeper

10.10.10.4 spark04 datanode worker journalnode nodemanager

10.10.10.5 spark05 datanode worker journalnode nodemanager

10.10.10.6 spark06 datanode worker journalnode nodemanager

二、配置hosts和SSH免密碼登陸

參考上節內容

三、安裝JDK、SCALA

參考上節內容

四、搭建zookeeper叢集

解壓zookeeper 至使用者目錄(./usr/local/zookeeper) ，

進入/usr/local/zookeeper/conf目錄下

cp zoo-sample.cfg  zoo.cfg

vim zook.cfg

#加入以下配置
#zookeeper資料存放位置
dataDir=/usr/local/zookeeper/datadir
#zookeeper日誌存放位置
dataLogDir=/usr/local/zookeeper/datalogdir

#2888原子廣播埠，3888選舉埠，zookeeper有幾個節點，就配置幾個server。
server.1=spark01:2888:3888
server.2=spark02:2888:3888
server.3=spark03:2888:3888

建立zookeeper資料檔案路徑，並執行如下操作：

mkdir -p /usr/local/zookeeper/datadir

cd /usr/local/zookeeper/datadir

vim myid

1

設定當前伺服器在zookeeper叢集中的編號

將zookeeper傳送到其他兩臺伺服器上，並修改myid編號：

scp -r /usr/local/zookeeper  [email protected]:/usr/local/
scp -r /usr/local/zookeeper  [email protected]:/usr/local/


#修改spark02的myid為2，spark03的myid為3

並分別配置環境變數ZOOKEEPER_HOME：

export ZOOKEEPER_HOME=/usr/local/zookeeper
export PATH=$PATH:$ZOOKEEPER/bin

啟動zookeeper叢集，在三臺伺服器上分別執行：

/usr/local/zookeeper/bin/zkServer.sh start

#使用下面的命令查詢zkServer狀態
/usr/local/zookeeper/bin/zkServer.sh status

五、hadoop HA叢集搭建

解壓hadoop檔案至使用者目錄（/usr/local/hadoop)

進入目錄/usr/local/hadoop/etc/hadoop

修改檔案hadoop-env.sh

vim hadoop-env.sh

export JAVA_HOME=/usr/local/java
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native 
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec 
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH 


　　
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root

修改core-site.xml檔案

vim core-site.xml

<configuration>
 <!--ns為在hdfs-site.xml中定義的名稱節點別名-->
  <property>
     <name>fs.defaultFS</name>
     <value>hdfs://ns</value>
  </property>
 <property>
<!--用來指定hadoop執行時產生檔案的存放目錄-->
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/hadoop/tmp</value>
  </property>
 <property>
     <!--zookeeper叢集地址-->
     <name>ha.zookeeper.quorum</name>
     <value>spark01:2181，spark02:2181,spark03:2181</value>
  </property>
</configuration>

修改hdfs-site.xml

vim hdfs-site.xml


<configuration>
<!--執行hdfs的nameservice為ns,和core-site.xml保持一致-->
<property>
<name>dfs.nameservices</name>
<value>ns</value>
</property>
<!--ns下有兩個namenode,分別是nn1,nn2-->
<property>
<name>dfs.ha.namenodes.ns</name>
<value>nn1,nn2</value>
</property>
<!--nn1的RPC通訊地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn1</name>
<value>spark01:9000</value>
</property>
<!--nn1的http通訊地址-->
<property>
<name>dfs.namenode.http-address.ns.nn1</name>
<value>spark01:50070</value>
</property>
<!--nn2的RPC通訊地址-->
<property>
<name>dfs.namenode.rpc-address.ns.nn2</name>
<value>spark02:9000</value>
</property>
<!--nn2的http通訊地址-->
<property>
<name>dfs.namenode.http-address.ns.nn2</name>
<value>spark02:50070</value>
</property>
<!--指定namenode的元資料在JournalNode上的存放位置,
   這樣，namenode2可以從jn叢集裡獲取最新的namenode的資訊，達到熱備的效果-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://spark04:8485;spark05:8485;spark06:8485/ns</value>
</property>
<!--指定JournalNode存放資料的位置-->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/usr/local/hadoop/journaldata</value>
</property>
<!--開啟namenode故障時自動切換-->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!--配置切換的實現方式-->
<property>
<name>dfs.client.failover.proxy.provider.ns</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!--配置隔離機制-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!--配置隔離機制的ssh登入祕鑰所在的位置-->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
 
<!--配置namenode資料存放的位置,可以不配置，如果不配置，預設用的是
     core-site.xml裡配置的hadoop.tmp.dir的路徑-->
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/tmp/namenode</value>
</property>
<!--配置datanode資料存放的位置,可以不配置，如果不配置，預設用的是
          core-site.xml裡配置的hadoop.tmp.dir的路徑-->
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/tmp/datanode</value>
</property>
 
<!--配置block副本數量-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--設定hdfs的操作許可權，false表示任何使用者都可以在hdfs上操作檔案，生產環境不配置此項，預設為true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

修改mapred-site.xml

vim mapred-site.xml


<configuration>
<property>
<!--指定mapreduce執行在yarn上-->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
 <property>
        <name>mapreduce.application.classpath</name>
        <value>
            /usr/local/hadoop/etc/hadoop,
            /usr/local/hadoop/share/hadoop/common/*,
            /usr/local/hadoop/share/hadoop/common/lib/*,
            /usr/local/hadoop/share/hadoop/hdfs/*,
            /usr/local/hadoop/share/hadoop/hdfs/lib/*,
            /usr/local/hadoop/share/hadoop/mapreduce/*,
            /usr/local/hadoop/share/hadoop/mapreduce/lib/*,
            /usr/local/hadoop/share/hadoop/yarn/*,
            /usr/local/hadoop/share/hadoop/yarn/lib/*
        </value>
    </property>
</configuration>

修改yarn-site.xml

vim yarn-site.xml


<configuration>
 <!-- 開啟YARN HA --> 
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>

  <!-- 指定兩個resourcemanager的名稱 --> 
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>

<!-- 配置rm1，rm2的主機 --> 
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>spark01</value>
</property>

<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>spark03</value>
</property>

<!--開啟yarn恢復機制-->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>

<!--執行rm恢復機制實現類-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>

<!-- 配置zookeeper的地址 -->  
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>spark01:2181,spark02:2181,spark03:2181</value>
<description>For multiple zk services, separate them with comma</description>
</property>

<!-- 指定YARN HA的名稱 -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yarn-ha</value>
</property>

<property>
<!--指定yarn的老大 resoucemanager的地址-->
<name>yarn.resourcemanager.hostname</name>
<value>spark03</value>
</property>
<property>
<!--NodeManager獲取資料的方式-->
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

修改slaves檔案（3.0以後為workers檔案）

spark04
spark05
spark06

配置環境變數

vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

建立配置檔案中定義的資料夾

mkdir -p /usr/local/hadoop/tmp
mkdir -p /usr/local/hadoop/journaldata
mkdir -p /usr/local/hadoop/tmp/namenode
mkdir -p /usr/local/hadoop/tmp/datanode

拷貝檔案至其他五臺伺服器上，

然後執行如下命令啟動叢集

<!--首先啟動zookeeper叢集,在三臺伺服器上分別執行-->
zkServer.sh start
<!--在leader伺服器上執行如下命令，在zookeeper叢集上生成ha節點-->
hdfs zkfc -formatZK
<!在spark04、spark05、spark06任意一臺伺服器上執行如下命令，啟動journalnode叢集-->
hadoop-daemons.sh start journalnode
<!--在spark01上格式化名稱節點,並啟動-->
hadoop namenode -format
hadoop-daemon.sh start namenode
<!--在spark02上首先把namenode變為standby namenode，再啟動-->
hdfs namenode -bootstrapStandby
hadoop-daemon.sh start namenode
<!--在spark04、spark05、spark06上分別啟動datanode-->
hadoop-daemon.sh start datanode
<!--啟動zookeeper失敗恢復執行緒,這個執行緒需要在名稱節點上啟動即spark01、spark02-->
hadoop-daemon.sh start zkfc
<!--在spark01上啟動主resourcemanager-->
start-yarn.sh
<!--在spark03上啟動備resourcemanager-->
yarn-daemon.sh start resourcemanager

六、spark叢集搭建

解壓spark至使用者目錄（/usr/local/spark)

進入/usr/local/spark/conf

修改spark-env.sh

export JAVA_HOME=/usr/local/spark
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SPARK_HOME=/usr/local/spark

修改slaves檔案

spark04
spark05
spark06

複製$HADOOP_CONF_DIR目錄下hdfs-site.xml檔案和core-site.xml檔案至$SPARK_HOME/conf目錄下

spark叢集搭建完成

執行spark-shell --mater yarn驗證

七、重啟叢集

在spark01,spark02,spark03上分別執行zkServer.sh start 啟動zk叢集

在spark01上執行start-all.sh啟動叢集

Spark的部署及使用：2.hadoop+spark的HA搭建

上章中，完全分散式叢集僅對namenode做了備份，並未對resourcemanager做備份，切不能自動切換主備，在生產環境中是十分危險的，本章將介紹一種HA的spark分散式計算叢集的搭建方式。一、安裝前的準備 (1) jdk1.8.0_171.z

【2019春招準備：102. hadoop叢集搭建】

16G記憶體自己搭建的節點： hdfs叢集和yarn叢集 1-namenode 4-datanode 1-master 4-slave based on Centos 7 JDK1.8 hadoop1.8.0 NAT聯網：同一個網段設定好每個虛擬機器的固定IP，和內網域名對映，s

kubernetes學習：2.kubernetes叢集搭建（一）架構介紹

kubernetes叢集搭建：架構介紹作為一個容器的編排管理工具，k8s的效能出眾而且社群力量強大，連docker官方也已經預設k8s為容器編排的首選工具。所以我們更有必要去學習和了解它。 k8s的整體架構主要分為兩個部分： master（控制節點）和

Spark入門實戰系列--2.Spark編譯與部署（中）--Hadoop編譯安裝

二進制包 1.10 不能 mapr 修復 att 機器 mave end 【註】該系列文章以及使用到安裝包/測試數據能夠在《[傾情大奉送–Spark入門實戰系列] (http://blog.csdn.net/yirenboy/article/deta

【Hadoop 分布式部署五：分布式部署之分發、基本測試及監控】

conda -s 啟動上啟 res 點擊 mon web頁面 mapr 1.對 hadoop 進行格式化　　　　到 /opt/app/hadoop-2.5.0 目錄下　　執行命令： bin/hdfs namenode -format 　　　　　　執行的效果圖

【Hadoop 分布式部署八：分布式協作框架Zookeeper架構功能講解及本地模式安裝部署和命令使用】

.gz 權限實現 creat info 應用 data 就是數據結構 What is Zookeeper 　　　　是一個開源的分布式的，為分布式應用提供協作服務的Apache項目　　　　提供一個簡單的原語集合，以便與分布式應用可以在他之上構建更高層次的同步服務

Spark2.2.0叢集搭建部署之【SPARK叢集篇】

軟體準備資訊，詳見Spark2.2.0叢集搭建部署之【軟體準備篇】基礎配置資訊，詳見Spark2.2.0叢集搭建部署之【基礎配置篇】 SSH無密訪問，詳見park2.2.0叢集搭建部署之【無密訪問篇】 HADOOP叢集，詳見Spark2.2.0叢集搭建部署之【HADOOP叢集篇】

Spark2.2.0叢集搭建部署之【HADOOP叢集篇】

軟體準備資訊，詳見Spark2.2.0叢集搭建部署之【軟體準備篇】基礎配置資訊，詳見Spark2.2.0叢集搭建部署之【基礎配置篇】 SSH無密訪問，詳見park2.2.0叢集搭建部署之【無密訪問篇】將hadoop-2.7.7.tar.gz 進行解壓 tar -zxvf

Spark修煉之道（進階篇）——Spark入門到精通：第十五節 Kafka 0.8.2.1 叢集搭建

作者：周志湖微訊號：zhouzhihubeyond 本節為下一節Kafka與Spark Streaming做鋪墊主要內容 1.kafka 叢集搭建 1. kafka 叢集搭建 kafka 安裝與配置 tar -zxvf kafka_2

HBase HA + Hadoop HA 搭建 Hadoop 2.7.3 HA 搭建及遇到的一些問題

HBase 使用的是 1.2.9 的版本。 Hadoop HA 的搭建見我的另外一篇：Hadoop 2.7.3 HA 搭建及遇到的一些問題以下目錄均為 HBase 解壓後的目錄。 1. 修改 conf/hbase-site.xml，內容如下 <configuration>

Spark之路：（一）Scala + Spark + Hadoop環境搭建

一、Spark 介紹 Spark是基於記憶體計算的大資料分散式計算框架。Spark基於記憶體計算，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將Spark部署在大量廉價硬體之上，形成叢集。 1.提供分散式計算功能，將分散式

Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.5.0+Hbase-1.1.2+Hive-1.2.0叢集搭建

前言本部落格目的在於跟大家分享大資料平臺搭建過程，是筆者半年的結晶。在大資料搭建過程中,希望能給大家提過一些幫助，這也是本部落格的

ElasticSearch的部署及使用：一、ElastciSearch環境搭建

一、ElasticSearch單點模式搭建準備jdk1.8.0_171.zip、elasticsearch-6.4.0.tar.gz （1）安裝JDK1.8並配置環境變數略（2）安裝elasticsearch 建立使用者elastic (

hadoop-2.7.3搭建過程中遇到的問題及解決方案

sudo add-apt-repositoryppa:openjdk-r/ppa sudo apt-get update sudo apt-get install openjdk-7-jdk 問題二：在伺服器新增完公鑰之後，ssh伺服器然後報了這個錯誤 sign_and_send_pubkey

ELKB5.2.2集群環境部署及優化終極文檔

kibana5.2.2 elasticsearch5.2.2 elk5.2.2 elkb5.2.2.2 ELKB5.2.2集群環境部署本人陸陸續續接觸了ELK的1.4，2.0，2.4，5.0，5.2版本，可以說前面使用當中一直沒有太多感觸，最近使用5.2才慢慢有了點感覺，可見認知事務的艱難，本

zookeeper與kafka安裝部署及java環境搭建

3.4 項目目錄 tin bytes result zxvf util ise cat 1. ZooKeeper安裝部署本文在一臺機器上模擬3個zk server的集群安裝。 1.1. 創建目錄、解壓 cd /usr/ #創建項目目錄 mkdir zookeepe

大數據【二】HDFS部署及文件讀寫（包含eclipse hadoop配置）

throw 大數據我的電腦 ssh 生效 manager 方法 slave .sh 一　　原理闡述 1‘　　DFS 　　　　分布式文件系統（即DFS，Distributed File System），指文件系統管理的物理存儲資源不一定直接連接在本地節點上，而是通過計算機網

Hadoop問題：啟動hadoop 2.6遇到的datanode啟動不了

left hand list common status ctc 解決辦法總結 aac 問題描述：第一次啟動輸入jps都有，第二次沒有datanode 日誌如下：　　查看日誌如下: 2014-12-22 12:08:27,264 INFO org.mortbay.l

Exchange Server 2016安裝部署系列三：邊緣傳輸角色部署及邊緣訂閱

exchange 2016邊緣傳輸服務邊緣訂閱邊緣傳輸服務器角色安裝 exchange 2016 安裝邊緣訂閱文件導出導入本篇博文進入Exchange server 2016 安裝部署系列的第三部分：Exchange server 2016的邊緣傳輸服務器安裝及邊緣訂閱功能配置，本

3-2 Hadoop偽分布模式配置部署

方法包括 -name hbase 更多配置文件 lse pac 小結 Hadoop偽分布模式配置部署一、實驗介紹 1.1 實驗內容 hadoop配置文件介紹及修改 hdfs格式化啟動hadoop進程，驗證安裝 1.2 實驗知識點 hadoop核心配置文件

Spark的部署及使用：2.hadoop+spark的HA搭建

相關推薦