Hadoop的三種配置模式以及免密登入

阿新 • • 發佈：2018-11-25

本地模式

特點：只需要一臺伺服器，沒有HDFS、只能測試 MapReduce 程式，MapReduce 處理的是本地 Linux 的檔案資料。

配置步驟：

修改 hadoop-2.7.3/etc/hadoop 目錄下的 hadoop-env.sh 檔案，在第 25 行做如下修改（配置JAVA_HOME）：
```
export JAVA_HOME=/root/training/jdk1.8.0_144
```
測試 MapReduce 程式：

2.1. 建立目錄 mkdir ~/input 作為測試資料的存放目錄。

2.2. 在 input 目錄下建立 data.txt 檔案，內容如下：
```
 I love Beijing
 I love China
 Beijing is the capital of China
```
2.3. 執行 hadoop 自帶的一個 MapRecue 程式中的詞頻統計程式：

首先切換到 /root/training/hadoop-2.7.3/share/hadoop/mapreduce/ 目錄下。

執行如下命令：
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount ~/input ~/output

該命令會執行 hadoop-mapreduce-examples-2.7.3.jar 中的 wordcount 程式，統計 ~/input 目錄下所有檔案中所有單詞出現的頻率，結果會儲存到 ~/output 目錄下。

注：不要事先建立 ~/output 目錄，否則程式會丟擲異常，程式在執行的時候會自動建立 ~/output 目錄。

2.4. 執行成功的話會在 ~/output 目錄下產生兩個檔案：part-r-00000，_SUCCESS。_SUCCESS 這個檔案是一個空檔案，出現這個檔案說明詞頻統計成功。part-r-00000 這個檔案裡面儲存的是 ~/input 目錄下每個單詞出現的次數，內容如下：

偽分佈模式

特點：只需要一臺伺服器，模擬一個分散式的環境，具備 Hadoop 的主要功能。

配置步驟：

修改 hadoop-2.7.3/etc/hadoop 目錄下的 hadoop-env.sh

檔案，在第 25 行做如下修改（配置JAVA_HOME）：
```
export JAVA_HOME=/root/training/jdk1.8.0_144
```

修改 hdfs-site.xml 檔案，新增的內容如下：

<!-- 原則：一般資料塊的冗餘度跟資料節點（DataNode）的個數一致；最大不超過3 -->

<!--表示資料塊的冗餘度，預設：3-->
<property>
   <name>dfs.replication</name>
   <value>1</value>
</property>
				

<!--是否開啟HDFS的許可權檢查，預設true，先不設定-->
<property>
   <name>dfs.permissions</name>
   <value>false</value>
</property>

修改 core-site.xml 檔案，新增內容如下：

<!--配置NameNode地址,9000是RPC通訊埠-->
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://bigdata111:9000</value>
</property>	

<!--HDFS資料儲存在Linux的哪個目錄，預設值是Linux的tmp目錄-->
<property>
   <name>hadoop.tmp.dir</name>
   <value>/root/training/hadoop-2.7.3/tmp</value> <!-- 該目錄必須事先建立 -->
</property>

修改 mapred-site.xml 檔案，新增內容如下：
```

<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>	
```
注：hadoop-2.7.3/etc/hadoop/ 目錄下預設是沒有 mapred-site.xml 檔案的，需要複製一份 mapred-site.xml.template 檔案，執行如下命令：cp mapred-site.xml.template mapred-site.xml。

修改 yarn-site.xml 檔案，新增內容如下：

<!--Yarn的主節點ResourceManager的位置-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>bigdata111</value>
</property>	

<!--MapReduce執行方式：shuffle洗牌-->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

格式化 HDFS：

執行命令：hdfs namenode -format

看到列印的日誌中顯示：Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted 就說明格式化成功。
啟動停止 Hadoop 環境：

啟動：start-all.sh

停止：stop-all.sh

ps：啟動和停止 Hadoop 都會讓你輸入四次當前伺服器的密碼。因此我們需要配置免密碼登入伺服器。

免密碼登入

原理

使用非對稱加密演算法。
1. 從 ServerA 登入到 ServerB。
2. ServerB 隨機產生一個字串，使用 ServerA 給的公鑰進行加密。
3. ServerB 把加密後的字串發給 ServerA。
4. ServerA 用私鑰解密收到的字串。
5. ServerA 將解密後的字串回發給ServerB。
6. ServerB 將收到的字串與最開始生成的字串對比，匹配則直接登入，不匹配則需要 ServerA 重新輸入密碼進行登入。
配置
1. 使用 ssh-keygen -t rsa命令產生一個金鑰對：公鑰（給別人，用於加密），私鑰（給自己，用於解密）。
2. 在當前使用者的家目錄下會產生一個 .ssh 隱藏目錄，裡面會產生兩個檔案：id_rsa（私鑰），id_rsa.pub（公鑰）。
3. 把公鑰拷貝給要登入的伺服器：ssh-copy-id -i .ssh/id_rsa.pub [email protected]
4. 在對方伺服器的 .ssh/ 目錄下就會多一個 authorized_keys 檔案，裡面儲存著別的伺服器發來的所有公鑰。
通過 Web 介面訪問：

HDFS：http://192.168.220.111:50070
Yarn：http://192.168.220.111:8088

ps：具體的伺服器地址取決於自己的配置。

記錄下這歷史性的一刻：

ps：再執行一下之前那個 wordcount 程式，看看會發生什麼。

丟擲異常，原因：原來資料的目錄時本地 Linux 上的，現在已經開啟偽分散式模式，需要使用 HDFS 的目錄。
1. hdfs dfs -mkdir /input，該命令會在 HDFS 的根目錄 / 下建立一個 input 目錄。（執行該命令時，需要啟動 HDFS start-all.sh）
2. hdfs dfs -put ~/input/data.txt /input，該命令會把我們本地的 ~/input/data.txt 檔案上傳到 HDFS 的 /input 目錄下。
3. 檢視 HDFS 根目錄下的檔案：hdfs dfs -ls /。
4. 檢視 HDFS 根目錄下的檔案（包含子目錄）：hdfs dfs -lsr /。
5. 執行原來的 mapreduce 程式：hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/1117，該命令會讀取 HDFS 的 /input 目錄下的 data.txt 檔案，進行詞頻統計，統計的結果會輸出到 HDFS 的 /output/1117 目錄下。
6. 在程式執行的過程中可以訪問：http://192.168.220.111:8088/ 檢視執行中的 mapreduce 程式。
7. 最後程式執行完畢，執行 hdfs dfs -ls /output/1117檢視裡面生成的檔案內容。

全分佈模式

特點：需要多臺伺服器構建叢集，真正的分散式環境，用於生產。

準備工作

關閉防火牆：

本次停止：systemctl stop firewalld.service
永久關停：systemctl disable firewalld.service
安裝JDK

為叢集中的每臺機器配置IP到主機名的對映：

 192.168.220.112 bigdata112
 192.168.220.113 bigdata113
 192.168.220.114 bigdata114

配置免密碼登入，兩兩之間都要配置

4.1. 每臺機器產生自己的公鑰和私鑰：ssh-keygen -t rsa

4.2. 每臺機器把自己的公鑰給別人和自己：
```
 	ssh-copy-id -i .ssh/id_rsa.pub [email protected]
 	ssh-copy-id -i .ssh/id_rsa.pub [email protected]
 	ssh-copy-id -i .ssh/id_rsa.pub [email protected]
```
保證每臺機器的時間同步：

同時向三個終端傳送如下命令：date -s "2018-11-18 14:47:57"，來協調時間的一致，如果時間不一致，後續在執行 mapreduce 程式的時候有可能出現問題。

在主節點上進行安裝

解壓 tar 包，向 .bash_profile 中設定 Hadoop 的環境變數：

tar -zxvf hadoop-2.7.3.tar.gz -C ~/training/

叢集中的每臺機器都要設定環境變數
```
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
```
修改 hadoop-env.sh 檔案，將第 25 行的內容修改為：
```
export JAVA_HOME=/root/training/jdk1.8.0_144
```

修改 hdfs-site.xml 檔案：

<!--表示資料塊的冗餘度，預設：3-->
<property>
   <name>dfs.replication</name>
   <value>2</value>
</property>

修改 core-site.xml 檔案：

<!--配置NameNode地址,9000是RPC通訊埠-->
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://bigdata112:9000</value>
</property>	

<!--HDFS資料儲存在Linux的哪個目錄，預設值是Linux的tmp目錄-->
<property>
   <name>hadoop.tmp.dir</name>
   <value>/root/training/hadoop-2.7.3/tmp</value>
</property>

拷貝 mapred-site.xml.template 生成一份 mapred-site.xml：

cp mapred-site.xml.template mapred-site.xml

修改內容如下：

<!--MR執行的框架-->
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

修改 yarn-site.xml 檔案：

<!--Yarn的主節點RM的位置-->
<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>bigdata112</value>
</property>	

<!--MapReduce執行方式：shuffle洗牌-->
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

修改 slaves 檔案，配置從機的位置：
```
bigdata113
bigdata114
```
格式化 namenode：hdfs namenode -format

把主節點上配置好的 hadoop 複製到從節點上：

scp -r hadoop-2.7.3/ [email protected]:/root/training
scp -r hadoop-2.7.3/ [email protected]:/root/training

在主節點上啟動：start-all.sh

值得紀念的一刻：

datanode

也可以通過執行 hdfs dfsadmin -report命令，檢視 HDFS 的 namenode 和 datanode 節點的狀態。

[[email protected] ~]# hdfs dfsadmin -report
Configured Capacity: 100865679360 (93.94 GB)
Present Capacity: 96658509824 (90.02 GB)
DFS Remaining: 96658493440 (90.02 GB)
DFS Used: 16384 (16 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
Live datanodes (2):

Name: 192.168.220.113:50010 (bigdata113)
Hostname: bigdata113
Decommission Status : Normal
Configured Capacity: 50432839680 (46.97 GB)
DFS Used: 8192 (8 KB)
Non DFS Used: 2103767040 (1.96 GB)
DFS Remaining: 48329064448 (45.01 GB)
DFS Used%: 0.00%
DFS Remaining%: 95.83%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Sun Nov 18 15:05:23 CST 2018


Name: 192.168.220.114:50010 (bigdata114)
Hostname: bigdata114
Decommission Status : Normal
Configured Capacity: 50432839680 (46.97 GB)
DFS Used: 8192 (8 KB)
Non DFS Used: 2103402496 (1.96 GB)
DFS Remaining: 48329428992 (45.01 GB)
DFS Used%: 0.00%
DFS Remaining%: 95.83%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Sun Nov 18 15:05:23 CST 2018

安裝過程中出現的問題

value 標籤錯寫成 valual，導致執行 start-all.sh 的時候拋異常。
之前在主節點上搭建了偽分散式環境，已經格式化了 hdfs，導致在搭建全分散式環境啟動 HDFS 和 Yarn 的時候，從節點雖然已啟動了 DataNode 程序但是在 web 頁面上卻顯示存活的節點數為 0。按照網上的教程，刪除儲存資料的目錄，重新格式化無果。刪除 hadoop 重灌，問題解決。

全分佈模式最終的叢集結構

Hadoop全分佈模式

Hadoop的三種配置模式以及免密登入

本地模式特點：只需要一臺伺服器，沒有HDFS、只能測試 MapReduce 程式，MapReduce 處理的是本地 Linux 的檔案資料。配置步驟：修改 hadoop-2.7.3/etc/hadoop 目錄下的 hadoop-env.sh 檔案

LVS三種工作模式以及最主流的DR模式搭建流程

LVS常用的工作模式有NAT、DR、和TUN三種，其中DR模式效能最為優越，使用最為廣泛NAT模式：網路地址轉換 NAT（Network Address Translation）是一種外網和內網地址對映的技術。NAT模式下，資料的進出都要經過LVS的處理。LVS需要作為Real Server（真實伺

配置Linux ssh 免密登入

linux 常用的ssh登入方式主要有兩種：密碼登入和證書登入有兩臺機器，機器A和機器B：如從A登入機器B：密碼登入方式：在機器A上操作 ssh [email protected]機器B的ip 提示輸入密碼，登入成功！免密登入方式：在機器A上操作 ssh [em

Centos 7.4 x64 配置雙向ssh免密登入

QQ交流群：64655993 希望能對您有所幫助！！！本文記錄兩種操作：使用工具sshpass 手動配置具體配置如下：一、使用工具sshpass 1、環境說明：系統版本：CentOS-7-x86_64-Minimal-1708 虛擬機器工具

Hadoop起步之圖解SSH、免密登入原理和實現

1. 前言 emmm….最近學習大資料，需要搭建Hadoop框架，當弄好linux系統之後，第一件事就是SSH免密登入的設定。對於SSH，我覺得使用過linux系統的程式設計師應該並不陌生。可是吧，用起來簡單，真讓你說出個所以然，還是件比較困難的事（大佬繞路，此篇文章不屬於你~）。然後，我就好

hadoop的三種執行模式區別及配置詳解

基於hadoop進行開發時，有時候，會被hadoop的三種執行模式搞混，也會被hadoop叢集有哪些配置弄得暈頭轉向，因為看不同的文件有不同的配置方法。所以要先弄明白hadoop的執行模

hadoop初識之三：搭建hadoop環境（配置HDFS，Yarn及mapreduce 執行在yarn）上及三種執行模式（本地模式，偽分散式和分散式介）

--===============安裝jdk（解壓版）================== --root 使用者登入 --建立檔案層級目錄 /opt下分別建 modules/softwares/datas/tools 資料夾 --檢視是否安裝jdk rpm -

Apache三種工作模式介紹與配置

Apache工作模式查看方法查看Apache編譯安裝的參數 worker模式原理及配置方法 prefork模式原理及配置方法 event模式原理及配置方法 Apache三種工作模式介紹與配置一、Apache的三種工作模式介紹及相關查看方法1、Apache三種工作模式簡介Apache目前一

Apache三種工作模式配置

Apache 2.X 支援插入式並行處理模組，稱為多路處理模組（MPM）。在編譯apache時必須選擇也只能選擇一個MPM，對類UNIX系統，有幾個不同的MPM可供選擇，它們會影響到apache的速度和可伸縮性。 Prefork MPM : 這個多路處理模組(MPM)實現了一個非執行緒型

思特奇筆試題：Hadoop的三種執行模式：

1.獨立（本地）執行模式：無需任何守護程序，所有的程式都執行在同一個JVM上執行。在獨立模式下除錯MR程式非常高效方便。所以一般該模式主要是在學習或者開發階段除錯使用。 &nb

三、配置SSH免密登入

企業級大資料平臺Ambari搭建與管理本節中我們將介紹Ambari叢集的SSH免密登入 1、安裝openssh-client客戶端：此步驟中所有操作都使用“傳送鍵輸入到所有回話功能”進行配置: 安裝openssh-client客戶端 [[email

vmware三種網路模式配置（轉載）

Hadoop的三種安裝模式

Hadoop的三種安裝模式一、本地模式二、偽分佈模式 1. hadoop-env.sh ，配置hadoop的環境； 2. hdfs-site.xml，設定資料塊的冗餘度； 3

三種工廠模式的分析以及C++實現

以下是我自己學習設計模式的思考總結。 1.簡單工廠模式簡單工廠模式是工廠模式中最簡單的一種，他可以用比較簡單的方式隱藏建立物件的細節，一般只需要告訴工廠類所需要的型別，工廠類就會返回需要的產品類，但客戶端看到的只是產品的抽象物件，無需關心到底是返回了哪

Vmware虛擬機器下三種網路模式配置

VMware虛擬機器有三種網路模式，分別是Bridged(橋接模式)、NAT(網路地址轉換模式)、Host-only(主機模式)。 VMware workstation安裝好之後會多出兩個網路連線，分別是VMware Network Adapter VMnet1和VMwar

VMware虛擬機器三種網路模式的區別及配置方法

轉載：https://blog.csdn.net/Alpha_B612/article/details/80979101 本文參照文章: https://www.linuxidc.com/Linux/2016-09/135521.htm https://www.jb51.

Linux配置VMware三種網路模式

橋接模式（Bridged）橋接模式就是將主機網絡卡與虛擬機器虛擬的網絡卡利用虛擬網橋進行通訊。在橋接的作用下，類似於把物理主機虛擬為一個交換機，所有橋接設定的虛擬機器連線到這個交換機的一個介面上，物理主機也同樣插在這個交換機當中，所以所有橋接下的網絡卡與網絡

關於STM32的幾種輸入模式以及外部中斷的配置

最近做畢業設計，需要用按鍵來觸發外部中斷。實驗的時候是正常的，但是換了個核心板以及用上自己做的PCB電路板後，出現了一些問題。問題如下：要求：將連線按鍵的IO口配置為上拉輸入，按鍵一端接IO口，一端接地，即當按鍵按下後，該IO口會產生一個下降沿，觸發下降沿中斷。問題：將

hadoop全分散式叢集：配置主從節點之間的免密登入

要想實現主節點對從節點的管理：需要配置主節點對從節點的免密登入。 **主節點hostname：vdevops 從節點hostname：test2 hadoop版本：2.8.2 主從節點可以相互通訊** 1.主節點中產生RSA金鑰 1.1

javaWeb基礎之Servlet的三種實現方式以及兩種配置方式

一、Servlet的三種實現方式 Servlet（Server Applet）是Java Servlet的簡稱，稱為小服務程式或服務聯結器，用Java編寫的伺服器端程式，主要功能在於互動式地瀏覽和修改資料，生成動態Web內容。 1、Servlet的第一種建立方式：繼承Ht

Hadoop的三種配置模式以及免密登入

本地模式

偽分佈模式

免密碼登入

原理

配置

全分佈模式

準備工作

在主節點上進行安裝

安裝過程中出現的問題

全分佈模式最終的叢集結構

相關推薦