Hadoop完整搭建過程（三）：完全分佈模式（虛擬機器）

阿新 • • 發佈：2020-08-22

1 完全分佈模式

完全分佈模式是比本地模式與偽分佈模式更加複雜的模式，真正利用多臺Linux主機來進行部署Hadoop，對叢集進行規劃，使得Hadoop各個模組分別部署在不同的多臺機器上，這篇文章介紹的是通過三臺虛擬機器進行叢集配置的方式，主要步驟為：

準備虛擬機器：準備虛擬機器基本環境
ip+Host配置：手動設定虛擬機器ip以及主機名，需要確保三臺虛擬機器能互相ping通
ssh配置：生成金鑰對後複製公鑰到三臺虛擬機器中，使其能夠實現無密碼相互連線
Hadoop配置：core-site.xml+hdfs-site.xml+workers
YARN配置：yarn-site.xml

2 虛擬機器安裝

需要使用到三臺虛擬機器，其中一臺為Master節點，兩臺Worker節點，首先安裝虛擬機器並配置環境，最後進行測試。

2.1 映象下載

使用VirtualBox進行虛擬機器的安裝，先去CentOS官網下載最新版本的映象：

這裡有三種不同的映象：

boot：網路安裝版
dvd1：完整版
minimal：最小化安裝版

這裡為了方便選擇最小化安裝版的，也就是不帶GUI的。

2.2 安裝

下載後，開啟Virtual Box並點選New，選擇專家模式：

命名為CentOSMaster，作為Master節點，並且分配記憶體，這裡是1G，如果覺得自己記憶體大的可以2G：

磁碟30G足夠，其他可以保持預設：

建立好後從設定中的儲存中，選擇下載的映象：

啟動後會提示選擇啟動盤，確定即可：

好了之後會出現如下提示畫面，選擇第一個安裝：

等待一會後進入安裝介面：

接下來對安裝位置以及時區進行配置，首先選擇安裝位置：

由於是虛擬的單個空磁碟，選擇自動分割槽即可：

時區這裡可以選擇中國的上海：

接著選擇網路，首先修改主機名為master：

接著點選Configure：

新增ip地址以及DNS伺服器，ip地址可以參考本機，比如筆者的機器本地ip為192.168.1.7，則：

虛擬機器的ip可以填192.168.1.8
子網掩碼一般為255.255.255.0
預設閘道器為192.168.1.1
DNS伺服器為114.114.114.114（當然也可以換其他的公共DNS比如阿里的223.5.5.5、百度的180.76.76.76等）

點選Save後應用主機名並開啟：

沒問題的話就可以安裝了：

安裝的時候設定root使用者的密碼以及建立使用者：

使用者這裡採用一個叫hadoopuser的使用者，後面的操作都直接基於該使用者：

等待一段時間後安裝完成重啟即可。

2.3 啟動

在啟動之前首先把原來的映象去掉：

啟動後是黑框介面：

登入剛才建立的hadoopuser使用者即可。

3 `ssh`連線虛擬機器

預設的話是不能連線外網的，需要在選單欄中的Devices中選擇Network，設定為Bridged Adapter（橋接模式）：

使用ping測試：

接著可以測試能否ping通本地機器：

通了之後可以通過ssh連線虛擬機器，像平時操作伺服器一樣，在本地終端中連線虛擬機器，首先新增指紋：

接著輸入密碼連線即可：

如果想偷懶可以使用金鑰連線的方式，在本地機器中：

ssh-keygen -t ed25519 -a 100
ssh-copy-id -i ~/.ssh/id_ed25519.pub [email protected]

4 基本環境搭建

基本環境搭建就是安裝JDK以及Hadoop，使用scp上傳OpenJDK以及Hadoop。

4.1 `JDK`

首先去下載OpenJDK，然後在本地機器上使用scp上傳：

scp openjdk-11+28_linux-x64_bin.tar.gz [email protected]:/home/hadoopuser

接著在本地上切換到連線虛擬機器的ssh中，

cd ~
tar -zxvf openjdk-11+28_linux-x64_bin.tar.gz 
sudo mv jdk-11 /usr/local/java

下一步是編輯/etc/profile，新增bin到環境變數中，在末尾新增：

sudo vim /etc/profile
# 沒有vim請使用vi
# 或安裝：sudo yum install vim
# 新增
export PATH=$PATH:/usr/local/java/bin

然後：

. /etc/profile

測試：

4.2 `Hadoop`

Hadoop的壓縮包scp上傳到虛擬機器後，解壓並移動到/usr/local：

scp hadoop-3.3.0.tar.gz [email protected]:/home/hadoopuser

虛擬機器ssh終端：

cd ~
tar -xvf hadoop-3.3.0.tar.gz
sudo mv hadoop-3.3.0 /usr/local/hadoop

同時修改etc/hadoop/hadoop-env.sh配置檔案，填入Java路徑：

sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
# 填入
export JAVA_HOME=/usr/local/java # 修改為您的Java目錄

5 克隆

因為需要一個Master節點以及兩個Worker節點，將Master節點關機，並選擇配置好的CentOSMaster，右鍵進行克隆：

並選擇完全克隆：

克隆出CentOSWorker1以及CentOSWorker2。

6 主機名+`ip`設定

這裡的兩個Worker節點以Worker1以及Worker2命名，首先操作Worker1，修改主機名：

sudo vim /etc/hostname
# 輸入
# worker1

對於ip，由於Master節點的ip為192.168.1.8，因此這裡修改兩個Worker的節點分別為：

192.168.1.9
192.168.1.10

sudo vim /etc/sysconfig/network-scripts/ifcfg-xxxx # 該檔案因人而異
# 修改IPADDR
IPADDR=192.168.1.9

修改完成後重啟Worker1，對Worker2進行同樣的修改主機名以及ip操作。

7 `Host`設定

需要在Master以及Worker節點進行Host設定：

7.1 `Master`節點

sudo vim /etc/hosts
# 新增
192.168.1.9 worker1 # 與上面的ip對應一致
192.168.1.10 worker2

7.2 `Worker1`節點

sudo vim /etc/hosts
# 新增
192.168.1.8 master
192.168.1.10 worker2

7.3 `Worker2`節點

sudo vim /etc/hosts
# 新增
192.168.1.8 master
192.168.1.9 worker1

7.4 互`ping`測試

在三臺虛擬機器中的其中一臺ping另外兩臺的ip或者主機名，測試通過後就可以進行下一步了，這裡使用Worker1節點測試：

8 配置`ssh`

8.1 `sshd`服務

需要在三個節點（包括自身）之間配置ssh無密碼（金鑰）連線，首先使用

systemctl status sshd

檢查sshd服務是否開啟，沒開啟的使用

systemctl start sshd

開啟。

8.2 複製公鑰

三個節點都進行如下操作：

ssh-keygen -t ed25519 -a 100
ssh-copy-id master
ssh-copy-id worker1
ssh-copy-id worker2

8.3 測試

在其中一個節點中直接ssh連線其他節點，無需密碼即可登入，比如在Master節點中：

ssh master # 都是hadoopuser使用者，所以省略了使用者
ssh worker1
ssh worker2

9 `Master`節點`Hadoop`配置

在Master節點中，修改以下三個配置檔案：

HADOOP/etc/hadoop/core-site.xml
HADOOP/etc/hadoop/hdfs-site.xml
HADOOP/etc/hadoop/workers

9.1 `core-site.xml`

<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://master:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/local/hadoop/data/tmp</value>
	</property>
</configuration>

fs.defaultFS：NameNode地址
hadoop.tmp.dir：Hadoop臨時目錄

9.2 `hdfs-site.xml`

<configuration>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>/usr/local/hadoop/data/namenode</value>
	</property>
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>/usr/local/hadoop/data/datanode</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>2</value>
	</property>
</configuration>

dfs.namenode.name.dir：儲存FSImage的目錄，存放NameNode的metadata
dfs.datanode.data.dir：儲存HDFS資料的目錄，存放DataNode的多個數據塊
dfs.replication：HDFS儲存的臨時備份數量，有兩個Worker節點，因此數值為2

9.3 `workers`

最後修改workers，輸入（與上面設定的主機名一致）：

worker1
worker2

9.4 複製配置檔案

把Master節點的配置複製到Worker節點：

scp /usr/local/hadoop/etc/hadoop/* worker1:/usr/local/hadoop/etc/hadoop/
scp /usr/local/hadoop/etc/hadoop/* worker2:/usr/local/hadoop/etc/hadoop/

10 `HDFS`格式化並啟動

10.1 啟動

在Master節點中：

cd /usr/local/hadoop
bin/hdfs namenode -format
sbin/start-dfs.sh

執行後可以通過jps命令檢視：

在Worker節點中：

10.2 測試

瀏覽器輸入：

master:9870
# 如果沒有修改本機Host可以輸入
# 192.168.1.8:9870

但是。。。

本以為做了這麼多能看到成果了。

然後檢查過了一遍本機+虛擬機器Host，還有Hadoop的配置檔案，都沒有問題。

最後，

才定位到問題是

防火牆。

10.3 防火牆

CentOS8預設開啟了防火牆，可以使用：

systemctl status firewalld

檢視防火牆狀態。

由於是通過9870埠訪問，首先查詢9870是否開放，Master節點中輸入：

sudo firewall-cmd --query-port=9870/tcp
# 或
sudo firewall-cmd --list-ports

如果輸出為no：

則表示沒有開放，手動開放即可：

sudo firewall-cmd --add-port=9870/tcp --permanent
sudo firewall-cmd --reload # 使其生效

再次在瀏覽器輸入：

master:9870
# 如果沒有修改本地Host
# 192.168.1.8:9870

可以看到一個友好的頁面了：

但是，有一個問題就是這裡沒有顯示Worker節點，上圖中的Live Nodes數目為0 ，而Datanodes這裡什麼也沒有顯示：

但是在Worker節點中的確可以看到有Datanode的程序了：

檢視Worker節點的日誌（/usr/local/hadoop/logs/hadoop-hadoopuser-datanode-worker1.log）可以看到應該是Master節點9000埠的沒有開啟的問題：

回到Master節點，先執行stop-dfs.sh關閉，並開放9000埠後執行start-dfs.sh開啟：

/usr/local/hadoop/sbin/stop-dfs.sh
sudo firewall-cmd --add-port=9000/tcp --permanent
sudo firewall-cmd --reload
/usr/local/hadoop/sbin/start-dfs.sh

再次在瀏覽器訪問：

master:9000
# 或
# 192.168.1.8:9000

這時候就可以看見Worker節點了：

11 配置`YARN`

11.1 `YARN`配置

在兩個Worker節點中修改/usr/local/hadoop/etc/hadoop/yarn-site.xml：

<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>master</value>
</property>

11.2 開啟`YARN`

Master節點中開啟YARN：

cd /usr/local/hadoop
sbin/start-yarn.sh

同時開放8088埠為下面的測試做準備：

sudo firewall-cmd --add-port=8088/tcp --permanent
sudo firewall-cmd --reload

11.3 測試

瀏覽器輸入：

master:8088
# 或
# 192.168.1.8:8088

應該就可以訪問如下頁面了：

同樣道理沒有看到Worker節點，檢視Worker節點的日誌，發現也是埠的問題：

Master節點先關閉YARN，開放8031埠，並重啟YARN：

/usr/local/hadoop/sbin/stop-yarn.sh
sudo firewall-cmd --add-port=8031/tcp --permanent
sudo firewall-cmd --reload
/usr/local/hadoop/sbin/start-yarn.sh

再次訪問：

master:8088
# 或
# 192.168.1.8:8088

就可以看到Worker節點了：

至此，虛擬機器組成Hadoop叢集正式搭建完成。

12 參考

Hadoop完整搭建過程（三）：完全分佈模式（虛擬機器）

1 完全分佈模式完全分佈模式是比本地模式與偽分佈模式更加複雜的模式，真正利用多臺Linux主機來進行部署Hadoop，對叢集進行規劃，使得Hadoop各個模組分別部署在不同的多臺機器上，這篇文章介紹的是通過三臺虛擬機器

Hadoop完整搭建過程（四）：完全分佈模式（伺服器）

1 概述上一篇文章介紹瞭如何使用虛擬機器搭建叢集，到了這篇文章就是實戰了，使用真實的三臺不同伺服器進行Hadoop叢集的搭建。具體步驟其實與虛擬機器的差不多，但是由於安全組以及埠等等一些列的問題，會與虛擬機器

Hadoop完整搭建過程（二）：偽分佈模式

1 偽分佈模式偽分佈模式是執行在單個節點以及多個Java程序上的模式。相比起本地模式，需要進行更多配置檔案的設定以及ssh、YARN相關設定。

Hadoop完整搭建過程（一）：本地模式

1 本地模式本地模式是最簡單的模式，所有模組都執行在一個JVM程序中，使用本地檔案系統而不是HDFS。

本地+分散式Hadoop完整搭建過程

1 概述 Hadoop在大資料技術體系中極為重要，被譽為是改變世界的7個Java專案之一（剩下6個是Junit、Eclipse、Spring、Solr、HudsonAndJenkins、Android），本篇文章以Hadoop 3.3.0官方文件為基礎，首先會介紹Hadoop相

大資料實戰（七十六）：電商數倉（六十）數倉之業務數倉搭建（三）DWD層

1 DWD層對ODS層資料進行判空過濾。對商品分類表進行維度退化(降維)。 1 建立訂單表

Prometheus環境搭建系列（三）：監控redis伺服器（redis_exporter）

redis叢集環境搭建：https://www.cnblogs.com/uncleyong/p/13196936.html 在需要監控的redis上安裝 node_exporter和redis_exporter

MYSQL 之 JDBC（五）：增刪改查（三）PreparedStatement

是Statement的子介面，可以傳入帶佔位符的sql語句，並且提供了補充佔位符變數的方法。

MYSQL 之 JDBC（三）：增刪改查（一）通過Statement執行更新操作

Statement測試 /** * 通過JDBC向指定的資料表中插入一條記錄 * 1. Statement：用於執行sql語句的物件

Hadoop基礎（四十九）：壓縮和儲存（一）

1 Hadoop 原始碼編譯支援 Snappy 壓縮 1.1 資源準備 1．CentOS 聯網配置 CentOS 能連線外網。Linux 虛擬機器 ping www.baidu.com 是暢通的

Hadoop基礎（五十）：壓縮和儲存（二）

4開啟 Reduce 輸出階段壓縮當 Hive 將輸出寫入到表中時，輸出內容同樣可以進行壓縮。屬性hive.exec.compress.output 控制著這個功能。使用者可能需要保持預設設定檔案中的預設值 false，

Hadoop基礎（五十一）：企業級調優（一）

1 Fetch 抓取 Fetch 抓取是指，Hive 中對某些情況的查詢可以不必使用 MapReduce 計算。例如：

Hadoop基礎（五十二）：企業級調優（二）

4 資料傾斜 4.1 合理設定 Map 數 1）通常情況下，作業會通過 input 的目錄產生一個或者多個 map 任務。

大資料實戰（十）：電商數倉（三）之使用者行為資料採集（三）資料生成模組（一）

1 埋點資料基本格式 l公共欄位：基本所有安卓手機都包含的欄位 l業務欄位：埋點上報的欄位，有具體的業務型別

大資料實戰（十二）：電商數倉（五）之使用者行為資料採集（五）元件安裝（一）之hadoop安裝

1）叢集規劃：伺服器hadoop102 伺服器hadoop103 伺服器hadoop104 HDFS NameNode DataNode DataNode

大資料實戰（十四）：電商數倉（七）之使用者行為資料採集（七）元件安裝（三）日誌生成

1日誌啟動 1）程式碼引數說明 // 引數一：控制傳送每條的延時時間，預設是0 Long delay = args.length > 0 ? Long.parseLong(args[0]) : 0L;

大資料實戰（二十六）：電商數倉（十九）之使用者行為資料採集（十九）數倉搭建之DWD層（一）DWD層啟動表資料解析

0 簡介對ODS層資料進行清洗（去除空值，髒資料，超過極限範圍的資料，行式儲存改為列儲存，改壓縮格式）。

大資料實戰（三十四）：電商數倉（二十七）之使用者行為資料倉庫（十三）使用者留存主題

1需求目標 1.1使用者留存概念 1.2需求描述使用者留存分析 2 DWS層 2.1DWS層（每日留存使用者明細表）

大資料實戰（三十六）：電商數倉（二十九）之使用者行為資料倉庫（十五）本週迴流使用者數

本週迴流=本週活躍-本週新增-上週活躍 1 DWS層使用日活明細表dws_uv_detail_day作為DWS層資料

大資料實戰（三十七）：電商數倉（三十）之使用者行為資料倉庫（十六）流失使用者數

流失使用者：最近7天未登入我們稱之為流失使用者 1 DWS層使用日活明細表dws_uv_detail_day作為DWS層資料

Hadoop完整搭建過程（三）：完全分佈模式（虛擬機器）

1 完全分佈模式

2 虛擬機器安裝

2.1 映象下載

2.2 安裝

2.3 啟動

3 ssh連線虛擬機器

4 基本環境搭建

4.1 JDK

4.2 Hadoop

5 克隆

6 主機名+ip設定

7 Host設定

7.1 Master節點

7.2 Worker1節點

7.3 Worker2節點

7.4 互ping測試

8 配置ssh

8.1 sshd服務

8.2 複製公鑰

8.3 測試

9 Master節點Hadoop配置

9.1 core-site.xml

9.2 hdfs-site.xml

9.3 workers

9.4 複製配置檔案

10 HDFS格式化並啟動

10.1 啟動

10.2 測試

10.3 防火牆

11 配置YARN

11.1 YARN配置

11.2 開啟YARN

11.3 測試

12 參考

相關推薦

3 `ssh`連線虛擬機器

4.1 `JDK`

4.2 `Hadoop`

6 主機名+`ip`設定

7 `Host`設定

7.1 `Master`節點

7.2 `Worker1`節點

7.3 `Worker2`節點

7.4 互`ping`測試

8 配置`ssh`

8.1 `sshd`服務

9 `Master`節點`Hadoop`配置

9.1 `core-site.xml`

9.2 `hdfs-site.xml`

9.3 `workers`

10 `HDFS`格式化並啟動

11 配置`YARN`

11.1 `YARN`配置

11.2 開啟`YARN`