Hadoop NameNode HA搭建

阿新 • • 發佈：2019-01-09

hadoop namenode HA的搭建

需要:

192.168.44.128   centos128
192.168.44.129   centos129
192.168.44.130   centos130
192.168.44.131   centos131
centos7.3
hadoop2.7
zookeeper3.4

各叢集節點分佈圖

          |   NN | DN |  ZK | ZKFC | JN | RM | DM
---------------------------------- --------------
centos128 |   1 
  |    |  1  |  1   |    | 1  |
---------------------------------- --------------
centos129 |   1  | 1  |  1  |  1   |  1 |    |  1
---------------------------------- --------------
centos130 |      | 1  |  1  |      |  1 |    |  1
---------------------------------- --------------
centos131 |      | 1 
  |     |      |  1 |    |  1

namenode叢集
datanode叢集
zeookeepre叢集
zkfc叢集
jouralnode叢集
resouce manage程序
data manage叢集

一、jdk1.8安裝
jdk安裝在/usr/src/jkd
在/etc/profile檔案新增以下內容：
JAVA_HOME=/usr/src/jdk/
PATH= $J A V A_{H} O M E / b i n : / u s r / l o c a l / x t r a b a c k u p / b i n :$

J A V A_{H} O M E / b i n : / u s r / l o c a l / x t r a b a c k u p / b i n :

$JAVA_HOME/bin:/usr/local/xtrabackup/bin:$ PATH
CLASSPATH=.:

J A V A_{H} O M E / l i b / d t . j a r :

$JAVA_HOME/lib/dt.jar:$ JAVA_HOME/lib/tools.jar
執行source /etc/profile

二、zookeeper叢集安裝
1、在/etc/profile檔案新增以下內容：
export ZOOKEEPER_HOME=/root/hadoop-0.20.2/zookeeper-3.3.1
export PATH= $PATH:$ ZOOKEEPER_HOME/bin:$ZOOKEEPER_HOME/conf

在/etc/hosts中添如下內容：

     192.168.44.128  centos128
     192.168.44.129  centos129
     192.168.44.130  centos130
     192.168.44.131  centos131

zookeeper解壓在/usr/src/zookeeper.

2、設定叢集配置檔案/usr/src/zookeeper/conf/zoo.cfg：

    tickTime=2000
    initLimit=10
    syncLimit=5
    dataDir=/usr/src/zookeeper/data
    clientPort=2181
    #maxClientCnxns=60
    #autopurge.snapRetainCount=3
    #autopurge.purgeInterval=1
    server.1=centos128:2888:3888
    server.2=centos129:2888:3888
    server.3=centos130:2888:3888

註釋：

 tickTime=2000：每個tick設定為2000毫秒
 initLimit=10 ：初始同步階段10個tick時間
 syncLimit=5:傳送請求和得到確認之間5個tick間隔時間，follower之間的時間限制，超過了就會放棄
 dataDir=/usr/src/zookeeper/data：snapshot儲存路徑在/usr/src/zookeeper/data下
clientPor=2181： 客戶端通2181埠連線
maxClientCnxns=60：最大的clients連線數為60，可以根據實際情況調整
autopurge.snapRetainCount=3：在dataDir路徑儲存3份snapshot(快照)
autopurge.purgeInterval=1 ：每一個小時消除任務，設定為0為關閉自動清除特徵
 server.1=centos128:2888:3888  ：zookeeper叢集的server.id ,其中id值必須與dataDir目錄下的myid檔案裡的內容一致，都 為1，
host:port:port其中host就是伺服器，兩個port埠，第一個follower用一個埠2888，第二個follower用一個埠3888
server.2=centos129:2888:3888
server.3=centos130:2888:3888

3、在每個節點上開啟zookeeper並檢視程序

[[email protected] bin]# /usr/src/zookeeper/bin/zkServer.sh start
    ZooKeeper JMX enabled by default
    Using config: /usr/src/zookeeper/bin/../conf/zoo.cfg
    Starting zookeeper ... STARTED
    [[email protected] bin]# jps
    14962 QuorumPeerMain
    [[email protected] bin]# /usr/src/zookeeper/bin/zkServer.sh start
    ZooKeeper JMX enabled by default
    Using config: /usr/src/zookeeper/bin/../conf/zoo.cfg
    Starting zookeeper ... STARTED
    [[email protected] bin]# jps
    14962 QuorumPeerMain
    [[email protected] bin]# /usr/src/zookeeper/bin/zkServer.sh start
    ZooKeeper JMX enabled by default
    Using config: /usr/src/zookeeper/bin/../conf/zoo.cfg
    Starting zookeeper ... STARTED
    [[email protected] bin]# jps
    14962 QuorumPeerMain

三、hadoop安裝
1,ssh trust
ssh trusts設定

    ssh-keygen -t rsa
    ssh-keygen -t dsa
    cd ~/.ssh
    ssh-copy-id -i  id_rsa.pub  centos128
    ssh-copy-id -i  id_dsa.pub  centos128
    ssh-copy-id -i  id_rsa.pub  centos129
    ssh-copy-id -i  id_dsa.pub  centos129
    ssh-copy-id -i  id_rsa.pub  centos130
    ssh-copy-id -i  id_dsa.pub  centos130
    ssh-copy-id -i  id_rsa.pub  centos131
    ssh-copy-id -i  id_dsa.pub  centos131

在其它伺服器做同樣的設定

**2、存放路徑的建立**

    mkdir  /data/hadoop/name -p
    mkdir  /data/hadoop/tmp -p
    mkdir  /Data1 -p
    mkdir  /Data2 -p

**3、設定配置檔案**
主要幾個配置檔案
**a,在hadoop-env.sh中將**

    export JAVA_HOME=${JAVA_HOME}

改成

    export JAVA_HOME=/usr/src/jdk

b,

etc/hadoop/core-site.xml  配置NameNode URI
etc/hadoop/hdfs-site.xml  配置NameNode ，配置DataNode，
etc/hadoop/yarn-site.xml  配置ResourceManager  ，配置NodeManager ，配置History Server
etc/hadoop/mapred-site.xml  配置MapReduce Applications，配置 MapReduce JobHistory Server
 etc/hadoop/slaves         新增slave的IP

b.1,etc/hadoop/core-site.xml 配置如下：

  <!-- Put site-specific property overrides in this file. -->
     <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://centos128:9000</value>
        </property>
      <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop/tmp</value>
      </property>
        <property>
            <name>io.file.buffer.size</name>
            <value>131072</value>
        </property>
      <property>
        <name>fs.trash.interval</name>
        <value>10080</value>
      </property>
    </configuration>

其中hdfs://centos128:9000是 DataName uri地址

b.2, etc/hadoop/hdfs-site.xml 配置如下：

    <configuration>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>/data/hadoop/name</value>
        </property>
        <property>
            <name>dfs.blocksize</name>
            <value>268435456</value>
        </property>
        <property>
            <name>dfs.namenode.handler.count</name>
            <value>100</value>
        </property>
       <!--
        <property>
            <name>dfs.replication</name>
            <value>3</value>
        </property>
       -->
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>/Data1,/Data2</value>
        </property>
    </configuration>

dfs.namenode.name.dir  namenode物理路徑
dfs.replication        預設為3個副本
dfs.datanode.data.dir  datanode放存物理路徑

b.3, etc/hadoop/yarn-site.xml 配置如下：
含義參考：http://blog.csdn.net/u010719917/article/details/73917217

<!-- Site specific YARN configuration properties -->
     <!--
     ResourceManager
      -->
     <property>
       <name>yarn.log-aggregation-enable</name>
       <value>true</value>
     </property>
    <!--Configurations for ResourceManager -->
     <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>centos128</value>
     </property>
     <property>
       <name>yarn.resourcemanager.address</name>
 <value>${yarn.resourcemanager.hostname}:8032</value>
     </property>
     <property>
     <name>yarn.resourcemanager.scheduler.address</name>
       <value>${yarn.resourcemanager.hostname}:8030</value>
     </property>
     <property>
       <name>yarn.resourcemanager.resource-tracker.address</name>
       <value>${yarn.resourcemanager.hostname}:8031</value>
     </property>
     <property>
       <name>yarn.resourcemanager.admin.address</name>
       <value>${yarn.resourcemanager.hostname}:8033</value>
     </property>
     <property>
       <name>yarn.resourcemanager.webapp.address</name>
       <value>${yarn.resourcemanager.hostname}:8088</value>
     </property>
     <property>
       <name>yarn.resourcemanager.scheduler.class</name>
       <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
     </property>
     <!--
     <property>
       <name>yarn.resourcemanager.resource-tracker.client.thread-count</name>
       <value>50</value>
     </property>
     <property>
       <name>yarn.resourcemanager.scheduler.client.thread-count</name>
       <value>50</value>
     </property>
     -->
     <property>
       <name>yarn.scheduler.minimum-allocation-mb</name>
       <value>0</value>
     </property>
     <property>
       <name>yarn.scheduler.maximum-allocation-mb</name>
       <value>512</value>
     </property>
     <!--
     <property>
       <name>yarn.scheduler.minimum-allocation-vcores</name>
       <value>1</value>
     </property>
     <property>
       <name>yarn.scheduler.maximum-allocation-vcores</name>
       <value>2</value>
     </property>
     <property>
       <name>yarn.resourcemanager.nodemanagers.heartbeat-interval-ms</name>
       <value>1000</value>
     </property>
     -->
     <!--
     nodemanager
     -->
     <property>
       <name>yarn.nodemanager.resource.memory-mb</name>
       <value>1024</value>
     </property>
     <property>
       <name>yarn.nodemanager.vmem-pmem-ratio</name>
       <value>2.1</value>
     </property>
     <property>
       <name>yarn.nodemanager.local-dirs</name>
       <value>${hadoop.tmp.dir}/nm-local-dir</value>
     </property>
     <property>
       <name>yarn.nodemanager.log-dirs</name>
       <value>${yarn.log.dir}/userlogs</value>
     </property>
      <property>
         <name>yarn.nodemanager.log.retain-seconds</name>
       <value>10800</value>
     </property>
      <property>
       <name>yarn.nodemanager.remote-app-log-dir</name>
       <value>/logs</value>
     </property>
     <property>
       <name>yarn.nodemanager.remote-app-log-dir-suffix</name>
       <value>logs</value>
     </property>
      <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
     </property>
     <!--
      History Serve
      -->
       <property>
       <name>yarn.log-aggregation.retain-seconds</name>
       <value>-1</value>
     </property>
     <property>
       <name>yarn.log-aggregation.retain-check-interval-seconds</name>
       <value>-1</value>
     </property>

     <!--
     <property>
       <name>yarn.nodemanager.resource.cpu-vcores</name>
       <value>4</value>
     </property>

     -->
   </configuration>

b.4. etc/hadoop/mapred-site.xml 配置如下：
含義參考：http://blog.csdn.net/u010719917/article/details/73917217

<configuration>
       <!--
        MapReduce Applications
        -->
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
       <property>
           <name>mapreduce.map.memory.mb</name>
           <value>1536</value>
       </property>
       <property>
           <name>mapreduce.map.java.opts</name>
           <value>-Xmx1024M</value>
       </property>
       <property>
           <name>mapreduce.reduce.memory.mb</name>
           <value>3072</value>
       </property>
       <property>
           <name>mapreduce.reduce.java.opts</name>
           <value>Xmx2560M</value>
       </property>
       <property>
           <name>mapreduce.task.io.sort.mb</name>
           <value>512</value>
       </property>
       <property>
           <name>mapreduce.task.io.sort.factor</name>
           <value>100</value>
       </property>
       <property>
           <name>mapreduce.reduce.shuffle.parallelcopies</name>
           <value>50</value>
       </property>
       <!--
       MapReduce JobHistory Server
       -->
       <property>
           <name>mapreduce.jobhistory.address</name>
           <value>centos128:10020</value>
       </property>
       <property>
           <name>mapreduce.jobhistory.webapp.address</name>
           <value>centos128:19888</value>
       </property>
       <property>
           <name>mapreduce.jobhistory.intermediate-done-dir</name>
           <value>/mr-history/tmp</value>
       </property>
       <property>
           <name>mapreduce.jobhistory.done-dir</name>
           <value>/mr-history/done</value>
       </property>
   </configuration>

b.5. etc/hadoop/slaves 如下

  [root@centos128 hadoop]# cat slaves
   centos129
   centos130
   centos131

如果設定SecondaryNameNode,需要在同路徑下生成master檔案，新增SecondaryNameNode所在hostname
HA中是不必要設定SecondaryNameNode

b.6，日誌路徑：

   [root@centos128 logs]# pwd
   /usr/src/hadoop/logs
   [root@centos128 logs]# ll

7.其它服務安裝hadoop
將配置好的hadoop包，jdk,profile,host 複製到centos129,centos130

 cd /
   tar cvf hd.tar.gz /usr/src/hadoop/  /usr/src/jdk/ /etc/profile /etc/hosts

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Hadoop NameNode HA搭建
       
 
  
  
 hadoop namenode HA的搭建 
 需要: 
 192.168.44.128   centos128
192.168.44.129   centos129
192.168.44.130   centos130
192.168.44.131   centos131
centos 

  
 

    

    
    Hadoop NameNode HA模式的搭建以及原理
      信息   htm   功能   主從   改變   www   接收   通信   lov   搭建HA（高可用）模式的集群參見（http://blog.cheyo.net/92.html）
轉自：http://www.it165.net/admin/html/201407/3465.html
社區hadoo 

  
 

    

    
    hadoop namenode HA 高可用概念及配置說明
      
							
							
							可以看到之前配置的完全分散式中只有一個nn節點，不能高可用。 
在1x版本中存在這些問題： 
hdfs：nn單點故障，壓力過大，記憶體受限，擴充套件受阻。 
MapReduce（MR）:jboTracker訪問壓力大，擴充套件受阻；難以支援MR以外的計算框架，如 

  
 

    

    
    大資料實戰下筆記——Hadoop NameNode HA的原理
      
								
								            
						
                

NameNode高可用整體（HA）框架NameNode的主備切換NameNode的共享儲存

一．NameNode高可用整體框架



元件：
兩個NameNode，一個在Active上，一個在St 

  
 

    

    
    Hadoop-2.7.6雙namenode配置搭建（HA）高可用叢集部署教程
      
                配置雙namenode的目的就是為了防錯，防止一個namenode掛掉資料丟失，具體原理本文不詳細講解，這裡只說明具體的安裝過程。Hadoop HA的搭建是基於Zookeeper的，關於Zookeeper的搭建可以檢視這裡 hadoop、zookeeper、hbase、spa 

  
 

    

    
    Hadoop集群搭建(非HA)
      圖形界面   網絡模式   jdk   初始   hadoop2   orm   一個   程序猿   添加   1.準備Linux環境	1.0先將虛擬機的網絡模式選為NAT			1.1修改主機名		vi /etc/sysconfig/network				NETWORKING=yes		HOSTNAME=i 

  
 

    

    
    Hadoop的HA環境搭建
      resource   執行   事務隔離級別   hdf   dfa   def   rop   proxy   不可重復讀   一、集群的規劃
Zookeeper集群：192.168.176.131 （bigdata112）192.168.176.132 （bigdata113）192.168.176.13 

  
 

    

    
    搭建Hadoop的HA叢集的搭建
       
  
  
 1.上傳安裝包 2.解壓 
 tar -xvzf hadoop-2.7.6.tar.gz
 
 3.配置環境變數 
 export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.6
export PATH=$PATH:$HADOOP_HOME/bin:$H 

  
 

    

    
    hadoop + zookeeper HA架構搭建
       
 
  
  
 確保5臺linux系統節點已準備 |主機名| 記憶體|cpu |nna|2G|2核 |nns|2G|2核 |dn1|1G|1核 |dn2|1G|1核 dn3|1G|1核 
 1、給系統設定靜態IP,可以參照我之前的hadoop 叢集部署中靜態ip設定 https://mp.csdn.ne 

  
 

    

    
    Hadoop叢集的Namenode HA高可用配置
       
 
 HA配置首先要有zookeeper叢集，這裡就不再說明zookeeper叢集的搭建了，可以在我的前面的文章中找到 
 我這裡是在之前Hadoop單點的基礎上進行HA配置的 
 叢集HA規劃： 
 cdh0： Namenode   Datanode  JournalNod 

  
 

    

    
    分散式系統詳解--框架（Hadoop-HDFS的HA搭建及測試）
      
                              分散式系統詳解 - 框架（Hadoop的HDFS的HA搭建及測試）

一，背景概述



解決問題1：通過上面的圖我們可以明確的看出來，如果的Namenode壞掉了，那我們的整個叢集可以說就是要癱瘓了也就是單節點故障問題。

於是現在就出現了另外一 

  
 

    

    
    hadoop HA搭建
      
                配置件修改,目錄在<hadoop_home>/etc/hadoop/



一.配置



1.core-site.xml
<configuration>
        <property>
                <nam 

  
 

    

    
    hadoop + zookeepe HA架構搭建
      
							
							
							確保5臺linux系統節點已準備
|主機名|  記憶體|cpu
|nna|2G|2核
|nns|2G|2核
|dn1|1G|1核
|dn2|1G|1核
dn3|1G|1核

2、所有linux系統配置hosts系統檔案。新增ip對映,
vi /etc/hosts 

  
 

    

    
    HBase HA + Hadoop HA 搭建 Hadoop 2.7.3 HA 搭建及遇到的一些問題
      HBase 使用的是 1.2.9 的版本。  Hadoop HA 的搭建見我的另外一篇：Hadoop 2.7.3 HA 搭建及遇到的一些問題 
以下目錄均為 HBase 解壓後的目錄。 
1. 修改 conf/hbase-site.xml，內容如下 
 
 <configuration> 

  
 

    

    
    hadoop完全分散式搭建HA（高可用）
      
                首先建立5臺虛擬機器（最少三臺），並且做好部署規劃ip地址  主機名  安裝軟體  程序 192.168.xx.120  master  jdk,hadoop,zookeeper  namenode,ZKFC,Resourcemanager 192.168.xx.121  m 

  
 

    

    
    基於Docker的Zookeeper+Hadoop（HA）+hbase（HA）搭建
      公司要將監控資料存入opentsdb，而opentsdb使用了hbase作為儲存。所以想搭建一套高可用的分散式儲存來供opentsdb使用。 
因為機器有限，所以測試過程中將三臺叢集的環境安裝在docker上。 
  
一：宿主機版本和docker版本 
　　宿主機：Centos7.2 & 

  
 

    

    
    【Hadoop學習之四】HDFS HA搭建（QJM）
      環境　　虛擬機器：VMware 10 　　Linux版本：CentOS-6.5-x86_64 　　客戶端：Xshell4　　FTP：Xftp4 　　jdk8 　　hadoop-3.1.1 由於NameNode對於整個HDFS叢集重要性，為避免NameNode單點故障，在叢集裡建立2個或以上NameNode（不 

  
 

    

    
    hadoop 叢集HA高可用搭建以及問題解決方案
      
							
							
							hadoop 叢集HA高可用搭建

目錄大綱

1. hadoop HA原理
2. hadoop HA特點
3. Zookeeper 配置
4. 安裝Hadoop叢集
5. Hadoop HA配置


搭建環境




  環境
  版本
  地址地址



  

  
 

    

    
    ubuntu 虛擬機器 完全分散式 hadoop叢集搭建 hive搭建  ha搭建
      
                
針對分散式hadoop叢集搭建，已經在四臺虛擬機器上，完全搭建好，這裡針對整個搭建過程以及遇到的問題做個總結，按照下面的做法應該能夠比較順暢的搭建一套高可用的分散式hadoop叢集。
這一系列分散式元件的安裝過程中，大體可以分為以下幾步：
第一步.配置機器互信
   機器互 

  
 

    

    
    Spark的部署及使用：2.hadoop+spark的HA搭建
      
                    上章中，完全分散式叢集僅對namenode做了備份，並未對resourcemanager做備份，切不能自動切換主備，在生產環境中是十分危險的，本章將介紹一種HA的spark分散式計算叢集的搭建方式。

一、安裝前的準備

     (1) jdk1.8.0_171.z