hadoop2.x單機搭建分散式叢集超詳細教程

阿新 • • 發佈：2018-12-27

【前言】

1.個人PC機配置：戴爾，筆記本，記憶體8G，硬碟西數500G，CPU酷睿i5

2.由於工作中需要經常在叢集上做測試，另外我一直想學習大資料，因此結合百度+同事，有了此篇教程，初學者，不足之處，可在下方留言

【準備工作】

下載如下5個軟體：

1.VMware，版本10

2.CentOS系統iso映象，版本6.5

3.Xshell軟體

4.jdk，linux版本1.8

5.hadoop軟體包，版本2.7

【注：為方便起見，教程中所有密碼均設定為123456】

【搭建步驟】

1.安裝VMware軟體

詳見我部落格：

2.安裝CentOS虛擬機器系統以及配置網路和遠端連線

詳見我部落格：

網路設定為NAT模式

部落格中用的是SecureCRT工具，個人目前偏愛Xshell，連線方法很簡單，這裡不贅述

此時ifconfig檢視網絡卡，應該直接有ip了，試著在虛擬機器和本地宿主機ping下：

切換root使用者：

3.關閉虛擬機器防火牆

首先檢視當前防火牆狀態：

關閉防火牆：

檢視iptables服務是否開啟：

重啟虛擬機器：

4.安裝並配置jdk

這部分用root許可權操作

（1）先輸入jave-version檢視當前jdk版本，不是1.8就先刪除已有版本的jdk軟體包：

（2）去oracle官網下載jdk1.8的Linux版本（記得下載rpm自安裝版本），然後上傳到/usr/local/src目錄；

（3）輸入如下命令開始安裝jdk：

rpm -i jdk-8u91-linux-i586.rpm

等待安裝完成

在/usr/java路徑下檢視是否有jdk1.8資料夾：

有就安裝成功了。

（3）配置環境變數，讓系統用1.8版本的jdk：

首先修改系統配置檔案：vi /etc/profile

在檔案末尾加上如下幾行（注意等號前後不要留空格）：

儲存退出

（4）設定修改後的配置檔案生效：

（5）檢視伺服器當前jdk版本：

至此jdk安裝配置結束。

5.建立hadoop相應的檔案系統

這部分在root許可權下操作

（1）配置hosts檔案，路徑在/etc/hosts：

之後在虛擬機器ping master看看是否通：

（2）檢視虛擬機器系統中是否安裝lvm工具

這就表示已安裝。

（3）在虛擬機器中新增3塊硬碟（均為20G）

虛擬機器先關機

a)點選 “編輯虛擬機器設定”---“新增”---“硬碟”---“下一步”，然後一直點選 “下一步”直到完成：

b)接著，重複此操作2遍，會得到以下圖片。最後，點選“確定”並開啟虛擬機器：

開啟後fdisk -l檢視硬碟是否開啟成功：

可以看到3個20G的硬碟（sdb、sdc、sdd）

（4）建立物理卷

（pvcreate指令用於將物理硬碟分割槽初始化為物理卷，以便被LVM使用。）

a)使用sdb建立基於sdb的物理卷

pvcreate /dev/sdb

b)使用sdc建立基於sdc的物理卷

pvcreate /dev/sdc

c)使用sdd建立基於sdd的物理卷

pvcreate /dev/sdd

d)檢視物理卷是否建立成功

pvdisplay

（5）建立卷組和新增新的物理捲到卷組

a)建立一個卷組

vgcreate test_document /dev/sdb

（vgcreate 命令第一個引數是指定該卷組的邏輯名，後面引數是指定希望新增到該卷組的所有分割槽和磁碟）

b)將sdc物理卷新增到已有的卷組（注意vgcreate與vgextend用法的區別）

vgextend test_document /dev/sdc

c)將sdd物理卷新增到已有的卷組（注意vgcreate與vgextend用法的區別）

vgextend test_document /dev/sdd

d)檢視卷組大小（發現已經60G了）

（6）啟用卷組

（7）建立邏輯卷

a)lvcreate -L5120 -n lvhadooptest_document

(該命令是在卷組test_document上建立名字為lvhadoop，大小為5120M的邏輯卷，並且裝置入口為/dev/test_document/lvhadoop ,test_document為卷組名，lvhadoop為邏輯卷名）

b)lvcreate -L51200 -n lvdatatest_document

(該命令是在卷組test_document上建立名字為lvdata，大小為51200M的邏輯卷，並且裝置入口為/dev/test_document/lvdata ,test_document為卷組名，lvdata為邏輯卷名）

注意，如果分配過大的邏輯卷lvcreate -L10240 -n lvhadoop test_document會提示剩餘空間不足，此時可用命令vgdisplay去產檢視剩餘空間的大小。

（8）建立檔案系統

a) mkfs -t ext4/dev/test_document/lvhadoop

b) mkfs -t ext4/dev/test_document/lvdata

（9）建立資料夾

a)在linux根目錄下建立hadoop資料夾 mkdir -p /hadoop

b)在linux根目錄下建立data資料夾 mkdir -p /data

（10）掛載

a)mount /dev/test_document/lvhadoop /hadoop

b)mount /dev/test_document/lvdata /data

c)掛載後，再使用 df -kh 命令檢視

（11）修改自動掛載的配置檔案

如果下次重啟linux系統後，掛載裝置就又看不到了，我們需要把這個檔案寫入到fstab 分割槽表文件裡面。

a)vi /etc/fstab

在檔案末尾加上如上兩行，然後按“ESC”---“shirt”+“：”---輸入“x”---回車，之後reboot重啟虛擬機器。

6.建立hadoop組和使用者

（1）建立組

groupadd -g 3000 cloudadmin

（2）建立使用者

useradd -u3001 -g cloudadmin hadoop

（3）修改密碼

passwd hadoop 密碼改為：123456（與root使用者的密碼一致）

（4）修改檔案的系統許可權

a)修改hadoop檔案的系統許可權 chown -Rhadoop:cloudadmin /hadoop

b)修改data檔案的系統許可權 chown -Rhadoop:cloudadmin /data

c)檢視 ls -l / | grep cloudadmin

7.下載hadoop軟體包

點選左側的Download Hadoop

單擊releases

單擊binary，注意source是原始碼，不要下載錯了

單擊上圖的連結進行下載

上圖中-src是原始碼檔案，我們用另外一個。

8.在虛擬機器中解壓hadoop

（1）將下載的壓縮包上傳到/hadoop目錄下（rz命令）：

（2）切換到hadoop使用者

重啟虛擬機器，用hadoop使用者登入，注意Xshell遠端連線的時候，新建個hadoop使用者登入視窗

（退出hadoop使用者exit，檢視當前使用者whoami）

（3）解壓hadoop壓縮包：tar -zxvfHadoop-2.7.3-src.tar.gz，解壓完成後出現hadoop資料夾：

之後ll檢視：

9.建立叢集（規劃1個主節點，2個從節點）

為了看著舒服，將當前虛擬機器改名為hm（直接在VMware右鍵重新命名即可）；

（1）克隆2臺虛擬機器

在VMware虛擬機器中右鍵-管理-克隆

直接下一步

直接下一步

選擇建立完整克隆，下一步，將名稱改為hd001：

點完成開始克隆，克隆完成後：

點關閉即可，用同樣的方法再克隆一臺虛擬機器（注意名稱為hd002）。

克隆的時候，新虛擬機器ip自動更新1，就是比如第一臺虛擬機器ip為192.168.99.1，那麼克隆出第二臺，ip自動更新為192.168.99.2，以此類推。

（2）修改3臺虛擬機器的主機名

開啟3臺虛擬機器，用Xshell連線的時候注意ip不同，之後3臺虛擬機器都切換成root使用者：

其中hostname是檢視當前主機名，hostname hm是將主機名改為hm，但是這麼做重啟會失效，因此我們修改配置檔案network，之後reboot重啟此虛擬機器。

其餘所有虛擬機器都重複上述操作，注意主機名hm改為hd001和hd002。

（3）修改3臺虛擬機器的ip和mac

全部用root使用者登入！

先修改第一臺虛擬機器的ip和mac，輸入cat/etc/udev/rules.d/70-persistent-net.rules檢視，如果不是下圖的樣子，將其餘網絡卡註釋掉，另外複製它的MAC地址：

進入network-scripts目錄，編輯其內的ifcfg-eth0檔案，將該虛擬機器的ip和剛剛複製的mac地址覆蓋上：

重啟網絡卡

至此，第一臺虛擬機器的ip和mac配置完畢，接著配置第二臺虛擬機器的ip和Mac地址，輸入vi /etc/udev/rules.d/70-persistent-net.rules修改，因為上面的MAC地址與第一臺虛擬機器相同，因此我們用下一個，並將網絡卡修改為eth0：

後續步驟同上，接著同理配置第三臺虛擬機器的ip和Mac地址。

（4）修改對映關係

用root登入第一臺虛擬機器，輸入vi /etc/hosts，按照下圖配置，圖中的ip為各個虛擬機器的ip：

進入/etc資料夾：

scp hosts192.168.102.129://etc/

將hm etc資料夾下的hosts傳到192.168.102.128 的etc下

scp hosts192.168.102.130://etc/

將hm etc資料夾下的hosts傳到192.168.102.130 的etc下

有提示時，輸入yes，密碼是剛設定的123456

再去另外2臺虛擬機器檢視檔案是否傳輸成功cat /etc/hosts

在每臺虛擬機器中進行ping通測試，這裡每臺虛擬機器都需要測試與另外所有虛擬機器是否通，且ping ip和ping 主機名都要測試（這裡很容易漏測）：

10.在叢集中配置SSH免密登入

（1）重啟所有虛擬機器，均用hadoop使用者登入

（2）在主節點hm的Xshell裡輸入ssh-keygen -t rsa命令，然後一直按回車即可

在主節點hm上執行如下命令：

cd ~

cd .ssh

catid_rsa.pub >> authorized_keys

scp authorized_keys192.168.102.129:/root/.ssh/

scpauthorized_keys 192.168.102.130:/root/.ssh/

出現提示就輸入yes，密碼是之前設定的123456，這裡如果在scp時提示Permission denied，是因為當前登入的hadoop使用者沒有許可權，解決辦法3個：其一是為hadoop使用者授權，其二是切換成root使用者進行操作，其三是將authorized_keys從主節點下載到本地再逐一上傳到所有從節點。

（3）SSH免密碼登入驗證

ssh hd001date

ssh hd002date

第一次輸入會有提示，輸入yes，後面就正常

11.修改hadoop叢集的配置檔案

在hadoop使用者下進行以下操作：

（1）在叢集中的所有節點上建立相應的檔案目錄

a)建立tmp檔案，mkdir -p /data/tmp

b)建立name檔案，mkdir -p /data/name

c)建立data檔案，mkdir -p /data/data

d)進入data目錄，cd /data

e)檢視data資料夾下的檔案，ls

（2）在主節點上修改配置檔案

a)進入根目錄cd /

b)進入hadoop配置檔案所在目錄cd /hadoop/hadoop-2.7.3/etc/hadoop/

c)修改hadoop-env.sh檔案vi hadoop-env.sh

這裡JAVA_HOME的地址是之前配置JDK那裡的地址

d)修改core-site.xml檔案vi core-site.xml

注意主機名hm和路徑是之前設定好的，不要配錯了

e)修改hdfs-site.xml檔案vi hdfs-site.xml

注意這裡的路徑是之前設定好的，不要配錯了，另外有幾臺從節點就寫幾，我這裡寫2

f)修改mapred-site.xml.template檔案vi mapred-site.xml.template

注意主節點名hm是之前設定好的，不要配錯了

g)複製檔案，將mapred-site.xml.template複製一份並重新命名為mapred-site.xml存放在當前路徑：

同理將mapred-queues.xml.template複製一份並重新命名為mapred-queues.xml存放在當前路徑：

注：hadoop1.x版本直接有這兩個檔案，而hadoop2.x版本需要複製重新命名一下

h)繼續修改hdfs-site.xml檔案

因為hadoop2.x刪除了1.x版本的masters檔案，因此將master在hdfs-site.xml裡面

i)修改slaves檔案vi slaves

這裡寫入所有從節點的主機名

（3）同步時鐘

ntpdate

（4）分發hadoop軟體包到從節點上

注意這步是hadoop使用者在/hadoop目錄下操作，時間較長，請耐心等待

scp -r hadoop-2.7.3hd001:/hadoop/

scp -rhadoop-2.7.3 hd002:/hadoop/

12.格式化HDFS

（1）在hadoop使用者下進入主節點的/hadoop/hadoop2.7.3目錄

（2）格式化hdfs

bin/hadoop namenode -format

如果有提示，輸入大寫的Y，小寫的報錯，沒有就算了

格式化出錯的解決方法

a、檢視埠9000的資訊（需要在root使用者下檢視）

netstat -anp|grep 9000

b、格式化只能1次，如果後面再次格式化則會導致不成功，需要將所有節點上根目錄下data目錄下的data、name、tmp檔案刪除，再新建data、name、tmp空的資料夾。

13.啟動hadoop 系統

（1）用hadoop使用者登入主節點，進入/hadoop/hadoop2.7.3目錄

（2）啟動hadoop系統

bin/start-all.sh或sbin/start-all.sh

（關閉叢集sbin/stop-all.sh）

版本不同，apache的2.x版本啟動指令碼是在sbin資料夾內。

輸入yes

（3）檢查hadoop的相關程序是否啟動成功

a)主節點jps

b)所有從節點jps

（4）檢查叢集狀態

a)在hadoop使用者下進入主節點的/hadoop/hadoop2.7.3目錄

b)輸入bin/hadoop dfsadmin -report命令

（5）檢視監控介面

a)在瀏覽器位址列輸入192.168.102.128:8088回車

hadoop1.x埠是50030,後來2.x改為8088了。

【後記】

1.開啟hadoop叢集方法

所有虛擬機器開機-Xshell遠端登入所有虛擬機器（建議用hadoop使用者）-在主節點用hadoop使用者進入/hadoop2.7.3目錄，輸入/sbin/start-all.sh回車。

2.關閉hadoop叢集方法

在主節點用hadoop使用者進入/hadoop2.7.3目錄，輸入sbin/stop-all.sh回車。

3.網頁監控

192.168.102.128:8088

hadoop2.x單機搭建分散式叢集超詳細教程

【前言】 1.個人PC機配置：戴爾，筆記本，記憶體8G，硬碟西數500G，CPU酷睿i5 2.由於工作中需要經常在叢集上做測試，另外我一直想學習大資料，因此結合百度+同事，有了此篇教程，初學者，不足之處，可在下方留言【準備工作】下載如下5個軟體： 1.VMw

linux搭建node環境超詳細教程

rect 詳細步驟命令存在 rec figure 控制臺 source ins linux 環境搭建詳細步驟 1.訪問官方網址：https://nodejs.org/en/download/ 2.選擇和你服務器版本相關的壓縮包，復制下載鏈接 3.服務器登錄ssh

阿里雲搭建SS代理超詳細教程

阿里雲配置shadowsocks需要特別注意的一點：需要去控制檯去配置安全組規則，以允許shadowsocks對應的埠。否則shadowsocks服務依舊不可用。如何允許埠？ Employ multiple ports on ssserve

Win10搭建wamp環境超詳細教程（php7.1.4 + mysql5.7.18 + apache2.4）

前言 wamp整合軟體用了一年了，最近突然覺得應該自己來搭建環境，畢竟用別人的總是感覺不舒服，出了許多bug也不好找。 PHP安裝首先到官網上面去下載適合自己的php版本。 1.php目前最新版

基於CentOS6.5系統Hadoop2.7.3完全分散式叢集搭建詳細步驟

前言：本次搭建hadoop叢集使用虛擬機器克隆方式克隆slave節點，這樣做可以省去很多不必要的操作，來縮短我們的搭建時間。一、所需硬體，軟體要求使用 VMWare構建三臺虛擬機器模擬真實物理環境作業系統：CentOS6.5 二、必備條件 hadoop搭建需

Hadoop單機/偽分散式叢集搭建（新手向）

此文已由作者朱笑笑授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。本文主要參照官網的安裝步驟實現了Hadoop偽分散式叢集的搭建，希望能夠為初識Hadoop的小夥伴帶來借鑑意義。環境：（1）系統環境：CentOS 7.3.1611 64位（2）J

Hadoop2.7.3+HBase1.2.5+ZooKeeper3.4.6搭建分散式叢集環境

Hadoop2.7.3+HBase1.2.5+ZooKeeper3.4.6搭建分散式叢集環境一、環境說明個人理解：zookeeper可以獨立搭建叢集，hbase本身不能獨立搭建叢集需要和hadoop和hdfs整合叢集環境至少需要3個節點（也就是3臺伺服器裝置）：1個Master，2

centos7.3中搭建hadoop分散式叢集環境詳細過程

一、準備工作 1、準備3臺物理機或者虛擬機器； 2、安裝centos7系統； 3、準備好相關軟體包並拷貝相關軟體到目標伺服器上 hadoop-2.9.0.tar.gz jdk-8u131-linux-x64.tar.gz 二、配置網路 1、設定靜態網路ip 1）設定靜

Centos7.5搭建Hadoop2.8.5完全分散式叢集

一、基礎環境設定 1. 準備4臺客戶機（VMware虛擬機器）系統版本：Centos7.5 192.168.208.128 ——Master 192.168.208.129 ——Slaver-1 192.168.208.130 ——Slaver-2 192.168.208.130 ——Slaver-3

# 從零開始搭建Hadoop2.7.1的分散式叢集

Hadoop 2.7.1 (2015-7-6更新)，Hadoop的環境配置不是特別的複雜，但是確實有很多細節需要注意，不然會造成許多配置錯誤的情況。儘量保證一次配置正確防止反覆修改。網上教程有很多關於Hadoop配置的，但是每一個教程都對應了一個版本資訊，有

Linux下搭建Redis分散式叢集（詳細圖解演示）

一環境搭建. 1.1 環境準備.三臺虛擬機器.redis的版本是3.2.9.redis的各個版本下載地址：連結. 三個主節點三個從節點.

Linux下搭建Zookeeper分散式叢集（詳細圖解演示）

一：實驗環境搭建. 1.1 Linux使用的是CentOS7.3的發行版,Zookeeper的版本是3.4.12.搭建三個節點的叢集,是分別在三臺虛擬機器上配置Zookeeper節點,不是在一臺虛擬機器上搭建的三個Zookeepe

hadoop學習第二天~Hadoop2.6.5完全分散式叢集搭建和測試

環境配置：系統 centos7 節點 192.168.1.111 namenode 192.168.1.115 datanode2 192.168.1.116 datanode3 java 環境 :

Zookeeper 叢集搭建--單機偽分散式叢集

一. zk叢集，主從節點，心跳機制（選舉模式）二、Zookeeper叢集搭建注意點 1、配置資料檔案 myid 1/2/3 對應 server.1/2/3 2、通過./zkCli.sh -server [ip]:[port] 檢測叢集是否配置成功三、單機環境搭建叢集 1、拷貝另外兩個zk

spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分散式叢集

昨天又搗鼓了一下，網上有些寫得很不錯的教程，自己經過嘗試後覺得需要整理一下。 spark的執行模式有多種(見官網和Spark的Standalone模式安裝部署): local(本地模式)：常用於本地開發測試，本地還分為local單執行緒和local-clu

Hadoop實戰（1）_阿里雲搭建Hadoop2.x的偽分散式環境

環境：阿里雲伺服器 CentOS 7 x86_64 安裝介質：jdk-7u75-linux-i586.tar.gz，hadoop-2.4.1.tar.gz 安裝jdk tar -zxvf jdk-7u75-linux-i586.tar.gz 配置

億級Web系統搭建——單機到分散式叢集

導讀】徐漢彬曾在阿里巴巴和騰訊從事4年多的技術研發工作，負責過日請求量過億的Web系統升級與重構，目前在小滿科技創業，從事SaaS服務技術建設。大規模流量的網站架構，從來都是慢慢“成長”而來。而這個過程中，會遇到很多問題，在不斷解決問題的過程中，Web系統變得越來越

在windows環境中單機搭建rabbitmq叢集

建議單機版叢集僅作為學習使用，生產環境最好使用多伺服器叢集來避免單點故障帶來的服務不可用，必竟單機版的集是偽叢集。 1：準備基礎檔案、環境變數　　設定環境變數：　　變數名：RABBITMQ_BASE 　　變數值：C:\Program Files\RabbitMQ Server（例：這個是安裝目錄的

CentOS 7.3下Zabbix 4.0監控搭建過程超詳細教程

Zabbix是一個高度整合的企業級開源網路監控解決方案，與Cacti、nagios類似，提供分散式監控以及集中的web管理介面。zabbix具備常見商業監控軟體所具備的功能，例如主機效能監控，網路裝置效能監控，資料庫效能監控，ftp等通用協議的監控，能夠靈活利用可定製警告機制，允許使用者對事件傳送基於E-ma

RAP2環境搭建整理（超詳細）

RAP2是阿里開源的介面管理平臺，最近搭建了一下，將部署文件整理如下：如果途中遇坑會在文章末尾記錄下來嘻嘻首先，確定環境是否部署好。 RAP2所需的環境為： node.js 8.9.4+ mysql 5.7+ redis 4.0+ centos 6.5（後來搭建的時候升至最新了）確定以上