Hadoop之搭建完全分散式執行模式

阿新 • • 發佈：2018-11-05

一、過程分析

　　1、準備3臺客戶機（關閉防火牆、修改靜態ip、主機名稱）

　　2、安裝JDK

　　3、配置環境變數

　　4、安裝Hadoop

　　5、配置叢集

　　6、單點啟動

　　7、配置ssh免密登入

　　8、群起並測試叢集

二、編寫叢集分發指令碼 xsync

1、scp（secure copy）安全拷貝

　　1）scp定義

　　　　scp可以實現伺服器與伺服器之間的資料拷貝。

　　2）基本語法

　　　　scp -r 檔案使用者名稱@主機:目標路徑/名稱

　　3）案例

　　　　a、在hadoop101上，將hadoop101中 /opt/module 目錄下的軟體拷貝到 hadoop102上。

[[email protected]101 /]$ scp -r /opt/module  [email protected]:/opt/module

　　　　b、在hadoop103上，將hadoop101伺服器上的/opt/module 目錄下的軟體拷貝到 hadoop103上。

[[email protected]103 opt]$sudo scp -r [email protected]:/opt/module [email protected]:/opt/module

　　　　c、在hadoop103上操作hadoop101 中/opt/module 目錄下的軟體拷貝到 hadoop104上。

[[email protected] opt]$ scp -r [email protected]:/opt/module [email protected]:/opt/module

　　　注意：拷貝過來的/opt/module目錄，別忘了在hadoop102、hadoop103、hadoop104上修改所有檔案的所有者和所有者組。

　　　　　　sudo chown hadoop:hadoop -R /opt/module

　　　　d、分別將hadoop101 中/etc/profile 檔案拷貝到hadoop102、103、104、的/etc/profile上。

[[email protected] 
 ~]$ sudo scp /etc/profile [email protected]:/etc/profile

[[email protected] ~]$ sudo scp /etc/profile [email protected]:/etc/profile

[[email protected] ~]$ sudo scp /etc/profile [email protected]:/etc/profile

　　　　注意：拷貝完成後，需要source一下

2、rsync 遠端同步工具

　　rsync主要用於備份和映象，具有速度快、避免複製相同內容和支援符號連結的優點。

　　rsync 和 scp 區別：用 rsync 做檔案的複製要比 scp 的速度快，rsync 只對差異檔案做更新。scp是把所有檔案都複製過去。

　　1）語法

　　　　rsync -rvl 要拷貝的檔案路徑/名稱目的使用者@主機:目的路徑/名稱

　　　選項引數說明：

選項	功能
-r	遞迴
-v	顯示覆制過程
-l	拷貝符號連線

　　2）案例

　　　　a、把hadoop101 機器上的 /opt/software 目錄同步到 hadoop102 伺服器的 root使用者下的 /opt目錄

[[email protected] opt]$ rsync -rvl /opt/software/ [email protected]:/opt/software

3、xsync叢集分發指令碼

　　1）需求：迴圈複製檔案到所有節點的相同目錄下

　　2）分析

　　　　a、rsync命令原始拷貝：

　　　　　　rsync -rvl /opt/module [email protected]:/opt/

　　　　b、期望指令碼：

　　　　　　xsync 要同步的檔名稱

　　　　c、說明：在/home/hadoop/bin 這個目錄下存放的指令碼，hadoop使用者可以在系統任何地方直接執行。

　　3）指令碼實現
　　　　a、在/home/hadoop 目錄下建立bin 目錄，並在 bin目錄下建立xsync檔案，檔案內容如下：

[[email protected] ~]$ mkdir bin
[[email protected] ~]$ cd bin/
[[email protected] bin]$ touch xsync
[[email protected] bin]$ vi xsync

　　　　在該檔案中編寫如下程式碼：

#!/bin/bash
#1 獲取輸入引數個數，如果沒有引數，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 獲取檔名稱
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 獲取上級目錄到絕對路徑
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 獲取當前使用者名稱稱
user=`whoami`

#5 迴圈
for((host=103; host<105; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -rvl $pdir/$fname [email protected]$host:$pdir
done

　　　　b、修改指令碼 xsync 具有執行許可權　　　

[[email protected] bin]$ chmod 777 xsync

　　　　c、呼叫指令碼形式：xsync 檔名稱

[[email protected] bin]$ xsync /home/hadoop/bin

　　　　注意：如果將xsync 放到/home/hadoop/bin 目錄下仍然不能實現全域性使用，可以將xsync 移動到/usr/local/bin 目錄下。

三、叢集配置

1、叢集部署規劃

hadoop102

hadoop103

hadoop104

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

2、配置叢集

　　1）核心配置檔案

　　配置core-site.xml

[[email protected] hadoop]$ vi core-site.xml

　　在該檔案中編寫如下配置：

<!-- 指定HDFS中NameNode的地址 -->
<property>
        <name>fs.defaultFS</name>
      <value>hdfs://hadoop102:9000</value>
</property>

<!-- 指定Hadoop執行時產生檔案的儲存目錄 -->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

　　2）HDFS 配置檔案

　　配置 hadoop-env.sh

[[email protected] hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

　　配置 hdfs-site.xml

[[email protected] hadoop]$ vi hdfs-site.xml

　　在該檔案中編寫如下配置：

<property>
        <name>dfs.replication</name>
        <value>3</value>
</property>

<!-- 指定Hadoop輔助名稱節點主機配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop104:50090</value>
</property>

　　3）YARN 配置檔案

　　配置 yarn-env.sh

[[email protected] hadoop]$ vi yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

　　配置 yarn-site.xml

[[email protected] hadoop]$ vi yarn-site.xml

　　在該檔案中增加如下配置：

<!-- Reducer獲取資料的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
</property>

　　4）MapReduce 配置檔案

　　配置 mapred-env.sh　　

[[email protected] hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

　　配置 mapred-site.xml

[[email protected] hadoop]$ cp mapred-site.xml.template mapred-site.xml

[[email protected] hadoop]$ vi mapred-site.xml

　　在該檔案中增加如下配置

<!-- 指定MR執行在Yarn上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

3、在叢集上分發配置好的 Hadoop 配置檔案

[[email protected] hadoop]$ xsync /opt/module/hadoop-2.7.2/

4、檢視檔案分發情況

[[email protected] hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

四、叢集單點啟動

1、如果叢集是第一次啟動，需要格式化 NameNode

[[email protected] hadoop-2.7.2]$ hadoop namenode -format

2、在 hadoop102 上啟動 NameNode

[[email protected] hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[[email protected] hadoop-2.7.2]$ jps
3461 NameNode

3、在 hadoop102、hadoop103 以及 hadoop 104上分別啟動 DataNode

[[email protected] hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[[email protected] hadoop-2.7.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode

[[email protected] hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[[email protected] hadoop-2.7.2]$ jps
3190 DataNode
3279 Jps

[[email protected] hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[[email protected] hadoop-2.7.2]$ jps
3237 Jps
3163 DataNode

4、思考：每次都一個一個節點啟動，如果節點數目增加到1000個怎麼辦？

五、SSH 無密登入配置

1、無金鑰配置

　　1）免登入原理

　　2）生成公鑰和私鑰

[[email protected] .ssh]$ ssh-keygen -t rsa

　　然後敲（三個回車），就會生成兩個檔案 id_rsa（私鑰）、id_rsa.pub（公鑰）

　　3）將公鑰拷貝到要免密登入的目標機器上　　

[[email protected] .ssh]$ ssh-copy-id hadoop102
[[email protected] .ssh]$ ssh-copy-id hadoop103
[[email protected] .ssh]$ ssh-copy-id hadoop104

　　注意：還需要在hadoop102 上採用 root賬號，配置一下無密登入到 hadoop102、hadoop103、hadoop104。

　　　　還需要在hadoop103 上採用 hadoop賬號，配置一下無密登入到hadoop102、hadoop103、hadoop104 伺服器上。

2、.ssh 資料夾下（~/.ssh）的檔案功能解釋

known_hosts	記錄ssh訪問過計算機的公鑰（public key）
id_rsa	生成的私鑰
id_rsa.pub	生成的公鑰
authorized_keys	存放授權過的無密登入伺服器公鑰

六、群起叢集

1、配置 slaves

/opt/module/hadoop-2.7.2/etc/hadoop/slaves
[[email protected] hadoop]$ vi slaves

在該檔案中增加如下內容：

hadoop102
hadoop103
hadoop104

注意：該檔案中新增的內容結尾不允許有空格，檔案中不允許有空行。

2、啟動叢集

　　1）如果叢集是第一次啟動，需要格式化 NameNode（注意格式化之前，一定要先停止上次啟動的所有 namenode 和 datanode 程序，然後再刪除 data 和 log 資料）

[[email protected] hadoop-2.7.2]$ bin/hdfs namenode -format

　　2）啟動 HDFS

[[email protected] hadoop-2.7.2]$ sbin/start-dfs.sh
[[email protected] hadoop-2.7.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode

[[email protected] hadoop-2.7.2]$ jps
3218 DataNode
3288 Jps

[[email protected] hadoop-2.7.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps

　　3）啟動 YARN

[[email protected] hadoop-2.7.2]$ sbin/start-yarn.sh

　　注意：NameNode 和 ResourceManager 如果不是同一臺機器，不能在NameNode上啟動 YARN，應該在 ResourceManager 所在的機器上啟動 YARN。

　　4）web 端檢視 SecondaryNameNode

　　　　a、瀏覽器輸入：

　　　　b、檢視SecondaryNameNode，如圖

3、叢集基本測試

　　1）上傳檔案到叢集

　　上傳小檔案　　

[[email protected] hadoop-2.7.2]$ hdfs dfs -mkdir -p /user/atguigu/input
[[email protected] hadoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/atguigu/input

　　上傳大檔案

[[email protected] hadoop-2.7.2]$ bin/hadoop fs -put
 /opt/software/hadoop-2.7.2.tar.gz  /user/atguigu/input

　　2）上傳檔案後檢視檔案存放在什麼位置

　　　　a、檢視HDFS檔案儲存路徑

[[email protected] subdir0]$ pwd

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

　　　　b、檢視HDFS在磁碟儲存檔案內容

[[email protected] subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce 
jiangchun
jiangchun

　　3）拼接

-rw-rw-r--. 1 hadoop hadoop 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 hadoop hadoop   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 hadoop hadoop  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 hadoop hadoop    495635 5月  23 16:01 blk_1073741837_1013.meta

[[email protected] subdir0]$ cat blk_1073741836>>tmp.file
[[email protected] subdir0]$ cat blk_1073741837>>tmp.file
[[email protected] subdir0]$ tar -zxvf tmp.file

　　4）下載

[[email protected] hadoop-2.7.2]$ bin/hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz ./

七、叢集啟動/停止方式總結

1、各個服務元件逐一啟動/停止

　　1）分別啟動/停止 HDFS 元件　　

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode

　　2）啟動/停止 YARN

yarn-daemon.sh  start / stop  resourcemanager / nodemanager

2、各個模組分開啟動/停止（前提是配置ssh）

　　1）整體啟動/停止 HDFS

start-dfs.sh   /  stop-dfs.sh

　　2）整體啟動/停止 YARN

start-yarn.sh  /  stop-yarn.sh

八、叢集時間同步

　　時間同步的方式：找一個機器作為時間伺服器，所有的機器與這臺叢集時間進行定時的同步，比如：每隔十分鐘，同步一次時間。

　　具體步驟：

　　1、時間伺服器配置（必須root使用者）

　　1）檢查 ntp 是否安裝

[[email protected] 桌面]# rpm -qa|grep ntp
ntp-4.2.6p5-10.el6.centos.x86_64
fontpackages-filesystem-1.41-1.1.el6.noarch
ntpdate-4.2.6p5-10.el6.centos.x86_64

　　2）修改 ntp 配置檔案

[[email protected] 桌面]# vi /etc/ntp.conf

　　修改內容如下：

　　a、修改1（授權 192.168.1.0-192.168.1.255 網段上的所有機器可以從這臺機器上查詢和同步時間）

#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap 為
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap

　　b、修改2（叢集在區域網中，不使用其他網際網路上的時間）

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst 為

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

　　c、新增3（當該節點丟失網路連線，依然可以採用本地時間作為時間伺服器為叢集中的其他節點提供時間同步）

server 127.127.1.0
fudge 127.127.1.0 stratum 10

　　3）修改 /etc/sysconfig/ntpd 檔案

[[email protected] 桌面]# vim /etc/sysconfig/ntpd

　　增加如下內容（讓硬體時間與系統時間一起同步）

SYNC_HWCLOCK=yes

　　4）重啟 ntpd 服務

[[email protected] 桌面]# service ntpd status
ntpd 已停
[[email protected] 桌面]# service ntpd start
正在啟動 ntpd：                                            [確定]

　　5）設定 ntpd 服務開機啟動

[[email protected] 桌面]# chkconfig ntpd on

　　2、其他機器配置（必須root使用者）

　　1）在其他機器配置 10 分鐘與時間伺服器同步一次

[[email protected]桌面]# crontab -e

　　編寫定時任務如下：

*/10 * * * * /usr/sbin/ntpdate hadoop102

　　2）修改任意機器時間

[[email protected]桌面]# date -s "2017-9-11 11:11:11"

　　3）十分鐘後檢視機器是否與時間伺服器同步

[[email protected]桌面]# date

說明：測試的時候可以將10分鐘調整為1分鐘，節省時間

Hadoop之搭建完全分散式執行模式

一、過程分析　　1、準備3臺客戶機（關閉防火牆、修改靜態ip、主機名稱）　　2、安裝JDK 　　3、配置環境變數　　4、安裝Hadoop 　　5、配置叢集　　6、單點啟動　　7、配置ssh免密登入　　8、群起並測試叢集二、編寫叢集分發指令碼 xsync 1、s

Hadoop叢集搭建(詳細步驟)—完全分散式執行模式

分析： 1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱） 2）安裝jdk 3）配置環境變數 4）安裝hadoop 5）配置環境變數 6）配置叢集 7）單點啟動 8）配置ssh 9）群起並測試叢集一、虛擬機器準備詳見：二、編寫叢集分

java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式

> 目前[CSDN](https://blog.csdn.net/weixin_42208775),[部落格園](https://home.cnblogs.com/u/gitBook/),[簡書](https://www.jianshu.com/u/da41700fde04)同步發表中,更多精彩歡迎訪問

Hadoop從入門到精通系列之--3.完全分散式環境搭建

目錄一什麼是完全分散式二準備伺服器三叢集分發指令碼 3.1 scp（secure copy）安全拷貝 3.2 rsync遠端同步 3.3 叢集分發指令碼四叢集規劃 4.1 規劃思想 4.2 具體配置 4.3 ssh免密登陸一什麼

基於偽分散式hadoop搭建完全分散式

上篇部落格中，我們搭建了單機版和偽分散式版的hadoop。但是在真正的開發中都是用的完全分散式hadoop環境。因此今天我們就來搭建一下完全分散式hadoop環境。前提:有四臺解壓了hadoop和javajdk，且其中一臺作為namenode需要已經搭建成了偽分散式，其他三臺作為data

8.Hadoop的學習(Hadoop的配置--搭建完全分散式)

搭建偽分散式請檢視本部落格https://blog.csdn.net/wei18791957243 裡面的三個搭建偽分散式的部落格前提是偽分散式可以正常啟動。點開虛擬機器上邊的選單欄中的虛擬機器內的快照功能。（快照：可以及時儲存當前操

Hadoop搭建完全分散式環境

在搭建叢集中，常見的錯誤 1)格式化首先要記住，不要頻繁的格式化namenode, 如果非要格式化namenode,先刪除tmp目錄中的內容，清空之前，最好把所有的程序jps 中的殘存的服務關掉，如果不關閉的話會存在遺留的程序，就有可能佔用之前的埠號。 2）埠可能被佔用 3）避免多使

Hadoop之MapReduce 本機windows模式執行

hadoop在windows本機執行 (1)在 windows環境下編譯好的hadoop放到沒有中文和空格的路徑下 (2)編譯好的hadoop內的hadoop.all檔案要放到windows機器的windows-system32目錄下 , 否則報錯 (3)配置windows環

大資料之三完全分散式搭建

完全分散式多臺伺服器，每臺伺服器啟動表示不同角色的不同程序，組成HDFS叢集現在以四臺虛擬機器為例，主機名分別為node01,node02,node03,node04. node01–>NameNode node02–>SecondaryName

最詳細的Hadoop+Hbase+Hive完全分散式環境搭建教程（二）

繼續上次的教程，這次安裝hbase與hive 一、hbase2.1.1安裝在master節點： $ tar -zxvf hbase-2.1.1-bin.tar.gz -C /opt $ cd /opt/hbase-2.1.1/conf/ $ vi hbase-

大資料環境搭建之Kafka完全分散式環境搭建步驟詳解

文章目錄環境準備解壓安裝配置檔案服務啟動 1、啟動分散式叢集的zookeeper 2、啟動Kafka服務偽分散式搭建完畢之後，只要稍作修改就

VirtualBox+Centos7+(jdk1.7.0_71+Hadoop-2.6.0)/(jdk1.10+Hadoop-2.9.1)搭建完全分散式叢集平臺

VirtualBox+Centos7+(jdk1.7.0_71+Hadoop-2.6.0)/(jdk1.10+Hadoop-2.9.1)搭建完全分散式叢集平臺本文有很多是自定義的，可以根據自己的實際情況和需求修改，儘量會用紅色標註出來，當然按照步驟，一步一步應該也能成功，不

三臺阿里雲伺服器搭建完全分散式hadoop叢集並實現sparkstreaming詳細步驟

本文基於三臺阿里雲ECS例項搭建完全分散式hadoop叢集，並整合flume + kafka + sparkstreaming實現實時流處理。詳細步驟會在本文後續一一寫出，包括在搭建叢集過程中遇到的坑以及應對辦法。前言三臺ECS主機的規劃如下：外網ip

三臺阿里雲伺服器搭建完全分散式hadoop

1.準備工作：jdk安裝（個人選擇的1.8版本） 2.ssh免密登陸：關閉放火牆（可以將要開放的埠加入防火牆的開發埠中，學習用就直接關閉防火牆了）： 1）關閉firewall： systemctl stop firewalld.service #停止firewa

阿里雲三臺節點，搭建完全分散式hadoop叢集,超簡單

完全分散式的安裝 1、叢集規劃角色分配 NODE-47 NODE-101 NODE-106 HDFS Namenode Datanode Secondary

利用hadoop-2.5.0-cdh5.3.6版本，搭建完全分散式HA詳細記錄（怕忘）

我就按照自己的思路寫，可能步驟不一定正確1、在搭建完全分散式叢集時，首先要保證我們的三臺機子的時間同步，所以我們需要同步一臺時間伺服器，我的三臺虛擬機器分別為如下hostname-->make.hadoop.com 第一臺-->make.hadoo

搭建3個節點的hadoop叢集（完全分散式部署）--1 安裝虛擬機器及hadoop元件

昨晚搞到晚上11.30，終於把hadoop元件安裝好了，執行試了下，正常...這裡記錄下完全分散式hadoop叢集的搭建步驟。1.VWMare平臺安裝之前已經安裝好了，這裡不詳細說明。2.安裝CentOS虛擬機器1）下載好centos ISO安裝檔案，我安裝的是centos6

入門-Hadoop執行環境搭建(單機)及執行模式

1、準備工作：阿里雲伺服器：作業系統:linux CentOS 7.4 64位 Cpu：1核記憶體：2G 硬碟:40G ip:47.105.157.216 jdk-8u60-linux-x64.tar.gz hadoop-2.7.2.tar.gz 2、環境搭建

搭建3個節點的hadoop叢集（完全分散式部署）--2安裝mysql及hive

網上下載mysql安裝包檔案，我下載的是：mysql-5.7.21-linux-glibc2.12-x86_64.tar.gz，tar解壓後mv到mysql資料夾，啟動mysql服務service mysqld start登入mysqlmysql -u root -p輸入密碼

搭建完全分散式hadoop叢集

1. 建立master和3個slave 建立4個host，分別定義hostname為master、slave1、slave2、slave3，檢查4個host的ip地址，確保所有主機均處於1個閘道器，在hosts中配置4個主機的ip地址和hostname，並確保能夠相互pin

Hadoop之搭建完全分散式執行模式

相關推薦