centos7 hadoop HA高可用叢集搭建（ hadoop2.7 zookeeper3.4 ）

阿新 • • 發佈：2018-12-18

上篇文章寫了如何用ssh免密登入，當然這些操作都是在hadoop賬號上的操作，包括這篇文章也是一樣三臺主機

一、伺服器環境

主機名	IP	使用者名稱	密碼	安裝目錄
node1	192.168.31.106	hadoop	123456	/home/hadoop/
node2	192.168.31.175	hadoop	123456	/home/hadoop/
node3	192.168.31.36	hadoop	123456	/home/hadoop/

二、叢集規劃

master188	master189	slave190
NameNode	NameNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager

注：在此之前把防火牆啥的全都關閉，並且設定為開機不啟動

$systemctl stop firewalld.service
$systemctl disable firewalld.service
$systemctl status firewalld.service
not running

三、安裝配置Zookeeper

1、下載及安裝

在master188機器上，下載後解壓到/home/hadoop/目錄下：

tar -zxvf zookeeper-3.4.11.tar.gz  /home/hadoop/

2、拷貝 zoo_sample.cfg

進入zookeeper的conf目錄，拷貝zoo_sample.cfg並重命名為zoo.cfg ：

cd zookeeper-3.4.11/conf/

cp zoo_sample.cfg zoo.cfg

3、修改 zoo.cfg

vi zoo.cfg

修改如下，若原檔案沒有dataDir則直接新增：


tickTime=2000

initLimit=10

syncLimit=5

dataDir=/home/hadoop/zookeeper/data/zkData
dataLogDir=/home/hadoop/zookeeper/data/zkDataLog

clientPort=2181



server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

4、建立並編輯myid

//在zookeeper根目錄下建立zoo.cfg中配置的目錄
mkdir data/zkData/ -p

//建立並編輯檔案
vi myid

//輸入1，即表示當前機器為在zoo.cfg中指定的server.1
1

//儲存退出
:wq

5、拷貝zookeeper到其他機器

上述操作是在master188機器上進行的，要將zookeeper拷貝到其他zookeeper叢集機器上：

cd /home/hadoop

scp -r zookeeper/ [email protected]:/home/hadoop/

scp -r zookeeper/ [email protected]:/home/hadoop/

叢集中各元件的安裝目錄最好保持一致。

6、修改其他機器的myid檔案

myid檔案是作為當前機器在zookeeper叢集的標識，這些標識在zoo.cfg檔案中已經配置好了，但是之前在master188這臺機器上配置的myid為1，所以還需要修改其他機器的myid檔案：

//在master189機器上
echo 2 > /home/hadoop/zookeeper/data/zkData/myid
//在slave190機器上
echo 3 > /home/hadoop/zookeeper/data/zkData/myid

7、啟動zookeeper叢集

cd zookeeper-3.4.11/bin/
//分別在master188、master189、slave190上啟動
./zkServer.sh start

//檢視狀態
./zkServer.sh status

三臺機器的zookeeper狀態必須只有一個leader，其他都是follower。

//檢視程序，若有QuorumpeerMain，則啟動成功
jps

四、安裝配置Hadoop

1、下載及安裝

在master88機器上，解壓到/home/hadoop/目錄下：

tar -zxcf hadoop-2.7.1.tar.gz -C /home/hadoop/

2、配置

進入配置檔案目錄，修改配置檔案

cd hadoop-2.7.1/etc/hadoop/

1）vi hadoop-env.sh

配置JDK安裝路徑：

JAVA_HOME=/usr/local/soft/java

2）vi core-site.xml

<configuration>
  <!-- hdfs地址，ha模式中是連線到nameservice  -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://ns1</value>
  </property>
  <!-- 這裡的路徑預設是NameNode、DataNode、JournalNode等存放資料的公共目錄，也可以單獨指定 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/hadoop/tmp</value>
  </property>

  <!-- 指定ZooKeeper叢集的地址和埠。注意，數量一定是奇數，且不少於三個節點-->
  <property>
    <name>ha.zookeeper.quorum</name>
    <value>node1:2181,nod2:2181,nod3:2181</value>
  </property>

</configuration>

3）vi hdfs-site.xml

<configuration>
  <!-- 指定副本數，不能超過機器節點數  -->
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>

  <!-- 為namenode叢集定義一個services name -->
  <property>
    <name>dfs.nameservices</name>
    <value>ns1</value>
  </property>

  <!-- nameservice 包含哪些namenode，為各個namenode起名 -->
  <property>
    <name>dfs.ha.namenodes.ns1</name>
    <value>node1,node2</value>
  </property>

  <!-- 名為master188的namenode的rpc地址和埠號，rpc用來和datanode通訊 -->
  <property>
    <name>dfs.namenode.rpc-address.ns1.node1</name>
    <value>node1:9000</value>
  </property>

  <!-- 名為master189的namenode的rpc地址和埠號，rpc用來和datanode通訊 -->
  <property>
    <name>dfs.namenode.rpc-address.ns1.node2</name>
    <value>node2:9000</value>
  </property>

  <!--名為master188的namenode的http地址和埠號，用來和web客戶端通訊 -->
  <property>
    <name>dfs.namenode.http-address.ns1.node1</name>
    <value>node1:50070</value>
  </property>

  <!-- 名為master189的namenode的http地址和埠號，用來和web客戶端通訊 -->
  <property>
    <name>dfs.namenode.http-address.ns1.node2</name>
    <value>node2:50070</value>
  </property>
  
  <!-- namenode間用於共享編輯日誌的journal節點列表 -->
  <property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://node1:8485;node2:8485;node3:8485/ns1</value>
  </property>

  <!-- 指定該叢集出現故障時，是否自動切換到另一臺namenode -->
  <property>
    <name>dfs.ha.automatic-failover.enabled.ns1</name>
    <value>true</value>
  </property>

  <!-- journalnode 上用於存放edits日誌的目錄 -->
  <property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/home/hadoop/hadoop/data/dfs/journalnode</value>
  </property>

  <!-- 客戶端連線可用狀態的NameNode所用的代理類 -->
  <property>
    <name>dfs.client.failover.proxy.provider.ns1</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
  </property>

  <!-- 一旦需要NameNode切換，使用ssh方式進行操作 -->
  <property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
  </property>

  <!-- 如果使用ssh進行故障切換，使用ssh通訊時用的金鑰儲存的位置 -->
  <property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/home/hadoop/.ssh/id_rsa</value>
  </property>

  <!-- connect-timeout超時時間 -->
  <property>
    <name>dfs.ha.fencing.ssh.connect-timeout</name>
    <value>30000</value>
  </property>
</configuration>

4）vi mapred-site.xml

<!-- 採用yarn作為mapreduce的資源排程框架 -->
<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

5）vi yarn-site.xml

<configuration>

  <!-- 啟用HA高可用性 -->
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
  </property>

  <!-- 指定resourcemanager的名字 -->
  <property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>yrc</value>
  </property>

  <!-- 使用了2個resourcemanager,分別指定Resourcemanager的地址 -->
  <property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
  </property>
  
  <!-- 指定rm1的地址 -->
  <property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>node1</value>
  </property>
  
  <!-- 指定rm2的地址  -->
  <property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>node2</value>
  </property>
  
  <!-- 指定當前機器master188作為rm1 -->
  <property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm1</value>
  </property>
  
  <!-- 指定zookeeper叢集機器 -->
  <property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>node1:2181,node2:2181,node3:2181</value>
  </property>
  
  <!-- NodeManager上執行的附屬服務，預設是mapreduce_shuffle -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>

</configuration>

6）vi slaves

node1
node2
node3

3、拷貝hadoop到其他機器

1）拷貝

scp -r hadoop [email protected]:/home/hadoop/

scp -r hadoop [email protected]:/home/hadoop/

2）修改yarn-site.xml

在master189機器，即ResourceManager備用主節點上修改如下屬性，表示當前機器作為rm2:：

  <property>
    <name>yarn.resourcemanager.ha.id</name>
    <value>rm2</value>
  </property>

同時刪除slave190機器上的該屬性對，因為slave190機器並不作為ResourceManager。

3、啟動Hadoop

1)啟動Journalnode

cd hadoop/sbin/

./hadoop-daemon.sh start journalnode

//檢視程序JouralNode是否啟動
jps

2）格式化 NameNode和ZKFC

在master188機器上，執行格式化操作：

cd hadoop-2.6.5/bin

./hdfs namenode -format

./hdfs zkfc -formatZK

3）備用主節點同步主節點元資料

在master189（備用主節點）機器上，執行同步操作：

cd hadoop/bin

./hdfs namenode -bootstrapStanby

4）啟動HDFS、YARN、ZookeeperFailoverController

在master188機器上：(注意，在操作之前，要保證zookeeper是正常啟動的)

cd hadoop-2.6.5/sbin

./start-dfs.sh

//驗證，顯示NameNode和DataNode
jps

./start-yarn.sh

//驗證，顯示ResourceManager和NodeManager
jps

./hadoop-daemon.sh start zkfc

//驗證，顯示ZookeeperFailoverController
jps

在master189機器上，啟動ResourceManager，備用主節點的ResourceManager需要手動啟動：

cd hadoop-2.6.5/sbin

yarn-daemon.sh start resourcemanager

6）檢視Namenode、ResourceManager狀態

在master188機器上執行：

hdfs haadmin -getServiceState master188
yarn rmadmin -getServiceState rm1 

hdfs haadmin -getServiceState master189
yarn rmadmin -getServiceState rm2

也可以通過Web介面來檢視，瀏覽器中輸入 ip:50070 檢視HDFS，輸入 ip:8088/cluster/cluster 檢視YARN。

7）測試高可用

a.主節點--->備用主節點

kill掉主節點的namenode，檢視備用主節點的namenode狀態是否切換為active；

kill掉主節點的ResourceManager，檢視備用主節點的ResourceManager是否切換為active；

b.備用主節點--->主節點

若上述操作執行成功，那麼再測試反向故障自動轉移

先啟動被殺死的原主節點的namenode和ResourceManager

hadoop-daemon.sh start namenode 

yarn-daemon.sh start resourcemanager

再kill備用主節點的namenode和ResourceManager，檢視主節點的狀態，若能切換為active，那麼Hadoop HA高可用叢集搭建完成。

七、總結

需要注意的地方：

1）備用節點上的NameNode、ResourceManager、HMaster均需單獨啟動；

hadoop-daemon.sh start namenode

yarn-daemon.sh start resourcemanager

3）在備用主節點同步主節點的元資料時，主節點的HDFS必須已經啟動；
4）無法檢視standby狀態的節點上的hdfs；

5）格式化namenode時要先啟動各個JournalNode機器上的journalnode程序：hadoop-daemon.sh start journalnode；

6）若遇到問題，可以先考慮是哪個元件出現問題，然後檢視該元件或與該元件相關的元件的日誌資訊；若各元件web頁面無法訪問，或存在其他連線問題，可以從「防火牆是否關閉」、「埠是否被佔用」、「SSH」、「叢集機器是否處於同一網段」內等角度考慮；

7）個人在操作的時候出現過ssh無法啟用，拒絕連線，的問題

centos7 hadoop HA高可用叢集搭建（ hadoop2.7 zookeeper3.4 ）

目錄七、總結上篇文章寫了如何用ssh免密登入，當然這些操作都是在hadoop賬號上的操作，包括這篇文章也是一樣三臺主機一、伺服器環境主機名 IP 使用者名稱密碼安裝目錄 node1 192.168.31.

Hadoop HA高可用叢集搭建（2.7.2）

<configuration>  <property> <name>dfs.nameservices</name> <valu

超詳細Hadoop HA高可用叢集搭建及常見問題處理

最近研究了下公司的hadoop叢集並模仿搭建了一個在本地測試使用的hadoop叢集。本文介紹下詳細的搭建過程以及各種常見問題的處理解決。 1 , 前期準備 1.0 , 準備Linux環境。安裝vmware linux虛擬機

linux 安裝hadoop 的四大執行模式——HA高可用分佈模式（版本2.9.1）

hadoop的HA高可用配置：hadoop的名稱節點部署在不同的伺服器上（簡單理解），具體定義請自行查詢備註：簡述過程如果前面步驟按步驟進行，後續的步驟就不做詳細解釋準備：建立h105作為高可用的名稱節點（namenode），一般會再建議一個數據節點（及配置4個數據節點，兩個名稱節點），

CentOS 7部署Hadoop叢集（HA高可用叢集）

目錄測試環境 Hadoop 組織框架 HDFS架構 YARN架構 HA叢集部署規劃自動故障轉移關於叢集主機時間 Linux環境搭建配置Java環境安裝單機版Hadoop Zookeeper叢集安裝配置環境變數關閉防火牆修

三節點高可用叢集搭建——Hadoop-HA+zookeeper

目錄 HDFS -HA模式的工作機制示意圖叢集規劃——三節點高可用 Hadoop HA叢集搭建前期準備建立新的虛擬機器配置虛擬機器克隆虛擬機器配置環境變數，重新整理（master、slave1、slave2都配置一下環境變數）安裝zookeeper叢集配置檔案拷貝檔案拷貝

Hadoop部署（六）——CentOS 7部署Hadoop叢集（HA高可用叢集）

目錄測試環境關閉防火牆測試環境 Linux系統版本：CentOS 7 64位 Hadoop 組織框架 Hadoop主要包括兩部分：一部分是HDFS（Hadoop Distr

大資料系列（hadoop） Hadoop+Zookeeper 3節點高可用叢集搭建

原文地址：https://www.cnblogs.com/YellowstonePark/p/7750213.html一、叢集規劃主機名ipNameNodeDataNodeYarnZooKeeperJournalNodenode01192.168.1.201是是否是是node

Flume NG高可用叢集搭建詳解（基於flume-1.7.0）

1、Flume NG簡述 Flume NG是一個分散式，高可用，可靠的系統，它能將不同的海量資料收集，移動並存儲到一個數據儲存系統中。輕量，配置簡單，適用於各種日誌收集，並支援 Failover和負載均衡。並且它擁有非常豐富的元件。Flume NG採用的是三層架構：Agent層，Collecto

Hadoop(25)-高可用叢集配置,HDFS-HA和YARN-HA

一. HA概述 1. 所謂HA（High Available），即高可用（7*24小時不中斷服務）。 2. 實現高可用最關鍵的策略是消除單點故障。HA嚴格來說應該分成各個元件的HA機制：HDFS的HA和YARN的HA。 3. Hadoop2.0之前，在HDFS叢集中NameNode存在單點故障（SPOF

postgresql使用RHCS套件搭建HA高可用叢集

環境：資料庫伺服器 2臺伺服器一作業系統：CentOS 6.8 x86_64 IP(eth0):192.168.11.61 主機名：node1 伺服器二作業系統：CentOS 6.8 x86_64 IP_1(eth0):192.168.11.62 主機名：node2

CentOS7 haproxy+keepalived實現高可用叢集搭建

一、搭建環境　　CentOS7 64位 Keepalived 1.3.5 Haproxy 1.5.18 　　後端負載主機：192.168.166.21 192.168.166.22 兩臺節點上安裝rabbitmq服務

Hadoop2.7.3 HA高可靠性叢集搭建(Hadoop+Zookeeper)

一.概述在hadoop1時代，只有一個NameNode。如果該NameNode資料丟失或者不能工作，那麼整個叢集就不能恢復了。這是hadoop1中的單點問題，也是hadoop1不可靠的表現。

Hadoop系列-HDFS HA高可用叢集

前言：在HDFS叢集的時候我們知道，NameNode只有一個，如果現在NameNode掛掉了，或者NameNode需要硬體或者軟體的升級，那麼勢必就有單點問題。那麼HDFS HA就是來解決這個問題

Hadoop之——Hadoop2.5.2 HA高可靠性叢集搭建(Hadoop+Zookeeper)前期準備

今天是十一長假的第三天，節前，很多朋友發來私信說，網上基於HA的Hadoop叢集，動不動就是7、8臺伺服器，甚至是10幾臺伺服器，自己的電腦Hold不住這麼多虛擬機器啊！有什麼辦法可以將伺服器縮減為3臺嗎？今天，我就為大家帶來一篇如何在3臺CentOS 虛擬機器上搭建基於

Hadoop之——Hadoop2.5.2 HA高可靠性叢集搭建(Hadoop+Zookeeper)

一、Hadoop（HA）叢集的規劃叢集規劃主機名 IP NameNode DataNode Yarn ZooKeeper JournalNode liuyazhuang145 192.168.0.145 是是否是是 liuyazhuang146 192.16

hadoop 高可用叢集搭建

#關閉防火牆 systemctl disable firewalld systemctl stop firewalld #關閉selinux /etc/selinux/config 將SELINUX=enforcing 改為SELINUX=disabled sed -i

.Net Core2.1 秒殺專案一步步實現CI/CD(Centos7.2)系列一:k8s高可用叢集搭建總結以及部署API到k8s

前言：本系列部落格又更新了，是博主研究很長時間，親自動手實踐過後的心得，k8s叢集是購買了5臺阿里雲伺服器部署的，這個叢集差不多搞了一週時間，關於k8s的知識點，我也是剛入門，這方面的知識建議參考部落格園大神edisonchou的系列文章《.NET Core on K8S學習實踐系列文章索引(Draft版)》

Hadoop單機/偽分散式叢集搭建（新手向）

此文已由作者朱笑笑授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。本文主要參照官網的安裝步驟實現了Hadoop偽分散式叢集的搭建，希望能夠為初識Hadoop的小夥伴帶來借鑑意義。環境：（1）系統環境：CentOS 7.3.1611 64位（2）J

Kubernetes實戰高可用叢集搭建，配置，運維與應用

1-1 K8S導學 1-2 搭建K8S叢集步驟和要點介紹 1-3 搭建三節點Ubuntu環境 1-4 安裝容器引擎 1-5 下載Kubeadm、node元件和命令列工具 1-6 向叢集中加入worker節點 1-7 安裝dashboard和heapste

centos7 hadoop HA高可用叢集搭建（ hadoop2.7 zookeeper3.4 ）

一、伺服器環境

二、叢集規劃

三、安裝配置Zookeeper

四、安裝配置Hadoop

七、總結

相關推薦