搭建Hadoop叢集

阿新 • • 發佈：2020-08-19

寫在前面

按照老師的要求，來學習大資料了。大資料中hadoop體系佔據著很大一部分，要學習hadoop相關內容就要先搭建好他的叢集。這裡就記錄一下如何搭建一個hadoop叢集。

前期準備

三臺虛擬機器（關閉了防火牆，設定好了靜態ip，mac地址和主機名稱，安裝了JDK和hadoop，並設定了環境變數），如下圖：

下面演示一下如何配置一臺主機，剩下兩臺直接克隆（Vmware軟體裡右鍵虛擬機器管理裡有克隆，選擇完整克隆）即可。這裡使用的是centos7系統。

關閉防火牆

在終端介面輸入命令
```
systemctl status firewalld.service
```
檢視防火牆狀態，active(running)代表正在執行。

輸入命令
```
systemctl stop firewalld.service
```
來停止防火牆，再使用上面的命令檢視是否關閉。如果出現disactive(dead)則表示已關閉。

輸入命令
```
systemctl disable firewalld.service
```
來將防火牆的開機自啟關閉，永久關閉防火牆。
修改主機名

見該文章：centos7修改主機名並且按照教程來配置好主機名和ip的對映(linux裡的hosts檔案和windows裡的hosts檔案)，方便日後使用。在設定完後可以在命令列用主機名ping測試一下：
建立自己的使用者賬號，並賦予root許可權：

在安裝centos7時就會讓你建立一個自己的賬號，只需要讓它具有root許可權即可。

修改/etc/sudoers檔案，找到如下圖的地方:

在root使用者下面一行新增你的使用者賬號，按照上面的格式寫就行。
在/opt目錄下建立module和software資料夾：
```
sudo mkdir module
sudo mkdir software
```
修改module和software的所有者cd
```
sudo chown liuge:liuge module/ software/
```
這裡的liuge是我自己的使用者，設定成你自己的就行。
安裝JDK和hadoop

檢視是否安裝java軟體：
```
rpm -qa | grep java
```
如果安裝版本低於1.8，解除安裝它：
```
sudo rpm -e 軟體包
 
```
用ssh軟體將jdk和hadoop的gz包傳到/opt/software下，這裡我用的是MobaXterm

這裡使用的是jdk1.8和hadoop2.7.2的版本。

將jdk解壓到/opt/module下：
```
tar -zxvf jdk-8u202-linux-x64.tar.gz -C /opt/module/
```
也把hadoop解壓到opt/module/下：
```
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
```
接下來配置環境變數。

我們首先獲取到jdk的路徑和hadoop的路徑:
```
[liuge@hadoop03 jdk1.8.0_202]$ pwd
/opt/module/jdk1.8.0_202
[liuge@hadoop03 hadoop-2.7.2]$ pwd
/opt/module/hadoop-2.7.2
```
用vim編輯/etc/profile檔案：
```
sudo vim /etc/profile
```
在profile檔案的末尾新增JDK和hadoop路徑：
```
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_202
export PATH=$PATH:$JAVA_HOME/bin

##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
```
儲存後退出(esc :wq)。

讓修改後的檔案生效：
```
source /etc/profile
```
檢視是否配置完成：
```
java -version
hadoop version
```
如果有版本資訊出現，則說明配置完成了。
設定mac地址和靜態IP

當克隆出新的主機後，先不要開啟，用Vmware開啟該虛擬機器設定，網路介面卡，高階，重新生成一個mac地址。

設定靜態IP，直接通過圖形化介面操作即可。

為了方便日後使用，我們編寫一個指令碼用來叢集分發各種配置檔案等等。

在/home/liuge 目錄下建立bin目錄，並在bin目錄下建立xsync檔案。這裡的路徑就是你的使用者home。在裡面寫入如下內容：

#!/bin/bash
#1 獲取輸入引數個數，如果沒有引數，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 獲取檔名稱
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 獲取上級目錄到絕對路徑
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 獲取當前使用者名稱稱
user=`whoami`

#5 迴圈
for((host=3; host<6; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -rvl $pdir/$fname $user@hadoop0$host:$pdir
done

這裡的迴圈程式碼裡的條件要換成你自己的虛擬機器名稱。

修改指令碼xsync具有執行許可權：

chmod 777 xsync

要使用指令碼，直接xsync+檔名稱即可：

xsync /home/liuge/bin

配置ssh無密登入

我們進入第一臺主機(hadoop03)的/home/liuge/.ssh目錄下，生成公鑰和私鑰：
```
ssh-keygen -t rsa
```
如果沒有這個目錄，就先用ssh命令連線一下別的主機。

然後將公鑰拷貝到免密登入的機子上：
```
ssh-copy-id hadoop03
ssh-copy-id hadoop04
ssh-copy-id hadoop05
```
按照這個操作，我們再在hadoop03上用root賬號配置一下免密登入到hadoop03、04、05。並且在hadoop04上用liuge賬號(自己的賬號)配置一下hadoop04免密登入到hadoop03、hadoop04、hadoop05上。

叢集配置

首先我們要規劃好如何分配：

	hadoop03	hadoop04	hadoop05
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManger	NodeManager

接下來開始設定配置檔案。

注意，配置xml時要把property標籤都放在configuration標籤裡，如圖

core-site.xml

在/opt/module/hadoop-2.7.2/etc/hadoop 下，開啟core-site.xml檔案，新增如下內容：

<!-- 指定HDFS中NameNode的地址 -->
<property>
		<name>fs.defaultFS</name>
      <value>hdfs://hadoop03:9000</value>
</property>

<!-- 指定Hadoop執行時產生檔案的儲存目錄 -->
<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

hadoop-env.sh

還是在當前目錄下，開啟hadoop-env.sh，配置JAVA_HOME:

export JAVA_HOME=/opt/module/jdk1.8.0_202

hdfs-site.xml

依然是當前目錄，開啟hdfs-site.xml檔案，新增如下內容：

<!-- 指定Hadoop輔助名稱節點主機配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop05:50090</value>
</property>

yarn-env.sh

當前目錄，開啟yarn-env.sh，新增JAVA_HOME:

export JAVA_HOME=/opt/module/jdk1.8.0_202

yarn-site.xml

當前目錄，開啟yarn-site.xml，新增如下配置：

<!-- Reducer獲取資料的方式 -->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop04</value>
</property>

mapred-env.sh

當前目錄，開啟mapred-env.sh，配置JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_202

mapred-site.xml

當前目錄，將mapred-site.xml.template改名為mapred-site.xml，並開啟：

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

新增如下配置檔案：

<!-- 指定MR執行在Yarn上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

配置slaves

當前目錄下，開啟slaves檔案，加入如下內容：

hadoop03
hadoop04
hadoop05

這裡寫好自己的叢集名稱（這裡需要前面配置了對映，如果沒配置請往上翻），同時這個檔案不允許有空格或者空行。

分發配置檔案

運用我們剛才寫的xsync指令碼，將配置檔案分發：

xsync /opt/module/hadoop-2.7.2/

啟動叢集

我們在hadoop03(配置了NameNode)的機子上，在/opt/module/hadoop-2.7.2目錄下，輸入以下命令啟動HDFS：

sbin/start-dfs.sh

同理，可以使用stop-dfs.sh來停止HDFS：

sbin/stop-dfs.sh

在hadoop04(配置了ResourceManager)的機子上，在/opt/module/hadoop-2.7.2目錄，輸入以下命令啟動yarn:

sbin/start-yarn.sh

同理，停止：

sbin/stop-yarn.sh

網頁測試

在web端進行測試，看看是否啟動了。比如hadoop03:50070(我這裡是在windows設定了對映，實際還是ip地址)，開啟HDFS的管理介面。

可以使用hadoop05:50090開啟SecondNameNode的介面。

如果打不開，請按照上面的流程再檢查一遍。

總結

總的來說，搭建一個hadoop叢集還是不容易的。不過如果配置完一次，下一次直接啟動就好了。還是比較方便的。

零基礎搭建Hadoop叢集

一、配置虛擬機器器網路（NAT 模式）宿主機ipconfig截圖： Vmnet8網路配置：虛擬機器器網路配置：

雲伺服器搭建Hadoop叢集

一、搭建說明　　1、搭建簡易的hadoop叢集，本次搭建使用三臺騰訊雲伺服器。其中，一臺作為NameNode管理DataNode的分佈資訊和執行狀態；兩臺作為普通的DataNode節點。

搭建Hadoop叢集

寫在前面按照老師的要求，來學習大資料了。大資料中hadoop體系佔據著很大一部分，要學習hadoop相關內容就要先搭建好他的叢集。這裡就記錄一下如何搭建一個hadoop叢集。

【hadoop】【Linux】在阿里雲伺服器上搭建Hadoop叢集（單機版）（centos7）

技術標籤：Linuxhadooplinuxcentos 1.jdk的安裝（JDK8）歷史版本下載地址：https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html

從零搭建hadoop叢集之CentOS7配置網絡卡為靜態IP

CentOS7預設網絡卡裝置檔案存放於 /etc/sysconfig/network-scripts/ CentOS7的網絡卡裝置名稱是 ifcfg-ens33

從零搭建hadoop叢集之系統管理操作

1. 配置主機名 [root@hadoop01 ~]# hostname#顯示當前主機名方法一：通過配置檔案/etc/hostname （重啟後生效）

從零搭建hadoop叢集之安裝jdk

解除安裝系統自帶的OpenJDK以及相關的java檔案 1.查詢系統自帶的OpenJDK版本資訊

從零搭建hadoop叢集之mysql安裝

Linux RPM 方式安裝 MySQL在 hadoop02機器上 1、安裝新版mysql前，需將系統自帶的mariadb-lib解除安裝

從零搭建hadoop叢集之zookeeper叢集安裝

1. 從官方渠道獲取對應的zookeeper的安裝包 http://archive.apache.org/dist/zookeeper/ zookeeper-3.4.10.tar.g

從零搭建hadoop叢集之hadoop叢集安裝

1.叢集規劃 HDSF YARN hadoop01 NanemNode(主機點)，DataNode NodeManager hadoop02 DataNode, SecondaryNamenode

華為雲ECS上搭建Hadoop叢集環境啟動時報錯“java.net.BindException: Cannot assign requested address”問題的解決

啟動時使用： ./sbin/start-all.sh 1 報錯： java.net.BindException: Problem binding to [test7972:9000] java.net.BindException: Cannot assign requested address; For more details see: http://wiki.apache.

VMware + Ubuntu18.04 搭建Hadoop叢集環境的圖文教程

https://www.jb51.net/article/209042.htm 0.VMware克隆虛擬機器（準備工作，克隆3臺虛擬機器，一臺master,兩臺node）

Hadoop 系列（八）—— 基於 ZooKeeper 搭建 Hadoop 高可用叢集

一、高可用簡介 Hadoop 高可用 (High Availability) 分為 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對資料儲存及其一致性的要求比 YARN ResourceManger 高得多，所以它的實現也更加複雜，故

Hadoop 系列（五）—— Hadoop 叢集環境搭建

一、叢集規劃這裡搭建一個 3 節點的 Hadoop 叢集，其中三臺主機均部署 DataNode 和 NodeManager 服務，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服務。

hadoop叢集搭建

1、yarn安裝： yarn叢集中有兩個角色：主節點：Resource Manager 1臺從節點：Node Manager N臺

自己搭建的叢集，啟動hadoop時slave節點的datanode沒有啟起來怎麼辦？

自己搭建的叢集，啟動hadoop 叢集是，發現slave節點的datanode沒有啟動，查了資料發現是因為我在啟動叢集前，執行了這個命令：

hadoop叢集搭建-3/3

一、安裝hadoop rz -E#選擇jar包，解壓 tar -zxvf hadoop-2.7.2.tar.gz -C ../servers/ 設定環境變數：

Hadoop叢集搭建（1）

相關資源文章最後自取。首先下載安裝VMware station pro16 然後下載centos7映象檔案

Hadoop叢集環境搭建第二步：防火牆關閉，hostname修改，免密訪問

1: 關閉防火牆(Centos6.5).叢集中每臺機器都要關閉 //臨時關閉 service iptables stop //禁止開機啟動

實時數倉、基於Flink1.11的SQL構建實時數倉之搭建hadoop HA叢集

目錄 hadoop3.2.1 叢集安裝一：準備環境： 1.配置Java環境 [root@m1 ~]# java -version java version \"1.8.0_261\" Java(TM) SE Runtime Environment (build 1.8.0_261-b12) Java

搭建Hadoop叢集

寫在前面

前期準備

叢集配置

core-site.xml

hadoop-env.sh

hdfs-site.xml

yarn-env.sh

yarn-site.xml

mapred-env.sh

mapred-site.xml

配置slaves

分發配置檔案

啟動叢集

網頁測試

總結

相關推薦