Hadoop安裝部署的三種模式

阿新 • • 發佈：2019-01-29

hadoop安裝部署有以下三種模式：
本地模式
偽分佈模式
全分佈模式

安裝之前操作：
1.修改主機名，設定好IP
2.設定hadoop的環境變數：
命令：vi ~/.bash_profile
```
### add for hadoop
HADOOP_HOME=/root/ubuntu/training/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
```
source ~/.bash_profile 讓環境變數生效

一、本地模式

1.配置引數：

引數檔案                配置引數            參考值
hadoop-env.sh   JAVA_HOME   /root/training/jdk1.8.0_144
特點：
機器一臺，沒有HDFS、只能測試MapReduce程式，MapReduce處理的是本地Linux的檔案資料

2.實際操作：

修改配置：
vi hadoop-env.sh
25 export JAVA_HOME=/root/training/jdk1.8.0_144

3.測試MapReduce程式：
(1)、建立目錄和原始資料data.txt
mkdir ~/input
vi ~/input/data.txt
編輯內容：
這裡寫圖片描述

(2)、執行和結果檢視
例子：/root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/input/data.txt ~/output
這裡寫圖片描述

二、偽分佈模式

1.引數配置：
這裡寫圖片描述
特點：
是在單機上，模擬一個分散式的環境
具備Hadoop的主要功能，可以用於學習使用
HDFS: namenode+datanode+secondarynamenode
Yarn: resourcemanager + nodemanager
2.實際操作：
(1)修改配置檔案
. hdfs-site.xml
原則：一般資料塊的冗餘度跟資料節點（DataNode）的個數一致；最大不超過3

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

先不設定
<!--是否開啟HDFS的許可權檢查，預設true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
這裡寫程式碼片

core-site.xml

<!--配置NameNode地址,9000是RPC通訊埠-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata111:9000</value>
</property>

<!--HDFS資料儲存在Linux的哪個目錄，預設值是Linux的tmp目錄-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

mapred-site.xml 預設沒有 cp mapred-site.xml.template mapred-site.xml

<!--MR執行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

yarn-site.xml

<!--Yarn的主節點RM的位置，bigdata111為主機名-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata111</value>
</property>

<!--MapReduce執行方式：shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

（2）.格式化：HDFS（NameNode）
hdfs namenode -format
日誌：
Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
這裡寫圖片描述
（3）.啟動停止Hadoop的環境
start-all.sh

（5）.stop-all.sh

注意：最好配置免密碼登入

3.執行例子：

/root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
命令：hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0407
hdfs dfs -ls -R /out/0407
[email protected] ~/training/hadoop-2.7.3/tmp/dfs $ hdfs dfs -ls -R /output
drwxr-xr-x - ubuntu supergroup 0 2018-07-05 16:31 /output/0407
-rw-r--r-- 1 ubuntu supergroup 0 2018-07-05 16:31 /output/0407/_SUCCESS
-rw-r--r-- 1 ubuntu supergroup 56 2018-07-05 16:31 /output/0407/part-r-00000

[email protected] ~/training/hadoop-2.7.3/tmp/dfs $ hdfs dfs -cat /output/0407/part-r-00000
Beijing 2
China 2
I 2
captital 1
is 1
love 2
of 1
the 1

三、全分佈模式

1.引數配置
這裡寫圖片描述

特點：
正在的分散式環境，用於生產

2.實際操作：
做好規劃，三臺機器

（1）、準備工作（3臺均操作）

（*）關閉防火牆
systemctl stop firewalld.service
systemctl disable firewalld.service
（*）安裝JDK
（*）配置主機名 vi /etc/hosts
192.168.17.112 bigdata112
192.168.17.113 bigdata113
192.168.17.114 bigdata114
（*）配置免密碼登入：兩兩之間的免密碼登入
    a. 每臺機器產生自己的公鑰和私鑰
    ssh-keygen -t rsa
    b. 每臺機器把自己的公鑰給別人
    ssh-copy-id -i .ssh/id_rsa.pub [email protected]
    ssh-copy-id -i .ssh/id_rsa.pub [email protected]
    ssh-copy-id -i .ssh/id_rsa.pub [email protected]

（*）保證每臺機器的時間同步
如果時間不一樣，執行MapReduce程式的時候可能存在問題
在MTputty上使用date -s 2018-06-29

(2)、在主節點上（bigdata112）安裝
a.解壓設定環境變數

tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/

設定：112 113 114
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH

b.修改配置檔案
hadoop-env.sh JAVA_HOME /root/training/jdk1.8.0_144
hdfs-site.xml

<!--表示資料塊的冗餘度，預設：3-->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>

core-site.xml

<!--配置NameNode地址,9000是RPC通訊埠-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata112:9000</value>
</property>

<!--HDFS資料儲存在Linux的哪個目錄，預設值是Linux的tmp目錄-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

mapred-site.xml 預設沒有 cp mapred-site.xml.template mapred-site.xml

<!--MR執行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

yarn-site.xml

<!--Yarn的主節點RM的位置-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata112</value>
</property>

<!--MapReduce執行方式：shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

slaves

bigdata113
bigdata114

(3) 格式化NameNode： hdfs namenode -format
(4) 把主節點上配置好的hadoop複製到從節點上
scp -r hadoop-2.7.3/ [email protected]:/root/training
scp -r hadoop-2.7.3/ [email protected]:/root/training
(5) 在主節點上啟動 start-all.sh
這裡寫圖片描述

執行wordcount程式：

詳細操作步驟可參考連結：

Hadoop安裝部署的三種模式

一、本地模式

二、偽分佈模式

三、全分佈模式

zookeeper 安裝的三種模式

Hadoop安裝部署的三種模式

VM安裝的三種網路模式

hadoop基礎-------虛擬機器(五)-----虛擬機器linux系統網路配置的三種模式

day06.Hadoop快速入門&雲服務三種模式IaaS，PaaS和SaaS【大資料教程】

EXSI+VSPHERE的安裝配置+三種虛擬磁碟模式

hadoop學習；自定義Input/OutputFormat；類引用mapreduce.mapper；三種模式

Apache hadoop叢集安裝的三種方式：本地、偽分佈、完全分佈

mysql binlog日誌的三種模式

VMware網絡的三種模式

centos 軟件安裝的三種方式

第十三節: EF的三種模式(三) 之來自數據庫的CodeFirst模式

Vi編輯器的三種模式

LVS三種模式配置及優點缺點比較

VMware網絡連接三種模式

oop思維意識，類模塊命名空間，類擴展之繼承、組合、mixin三種模式

Linux中vim的三種模式以及基本命令

VMware下網絡配置的三種模式

nginx虛擬主機三種模式的簡單實現

應用負載均衡之LVS(一)：基本概念和三種模式

Hadoop安裝部署的三種模式

一、本地模式

二、偽分佈模式

三、全分佈模式

相關推薦