Hadoop系列005-Hadoop執行模式（下）

阿新 • • 發佈：2018-12-01

本人微信公眾號，歡迎掃碼關注！

Hadoop執行模式（下）

2.3、完全分散式部署Hadoop

1）分析：
- 1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱）
- 2）安裝jdk
- 3）配置環境變數
- 4）安裝hadoop
- 5）配置環境變數
- 6）安裝ssh
- 7）配置叢集
- 8）啟動測試叢集

2）操作

（1）虛擬機器準備
- 克隆三臺乾淨的虛擬機器
（2）主機名設定

（3） scp

1）scp可以實現伺服器與伺服器之間的資料拷貝。

2）案例實操

（1）將hadoop101中/opt/module和/opt/software檔案拷貝到hadoop102、hadoop103和hadoop104上。

[[email protected] /]# scp -r /opt/module/  [email protected]:/opt
[[email protected] /]# scp -r /opt/software/  [email protected]:/opt
[[email protected] /]# scp -r /opt/module/  [email protected] 
:/opt
[[email protected] /]# scp -r /opt/software/  [email protected]:/opt
[[email protected] /]# scp -r /opt/module/  [email protected]:/opt
[[email protected] /]# scp -r /opt/software/  [email protected]:/opt

（2）將192.168.1.102伺服器上的檔案拷貝到當前使用者下。

[[email protected] opt]# scp  [email protected] 
:/etc/profile  /opt/tmp/

（3）實現兩臺遠端機器之間的檔案傳輸（hadoop103主機檔案拷貝到hadoop104主機上）
```
[[email protected] test]$ scp [email protected]:/opt/test/haha [email protected]oop104:/opt/test/
```

（4）SSH無密碼登入

1）配置ssh

（1）基本語法
```
ssh 另一臺電腦的ip地址
```

（2）ssh連線時出現Host key verification failed的解決方法

問題再現
[[email protected] opt]# ssh 192.168.1.103
The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established.
RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:ad:06.
Are you sure you want to continue connecting (yes/no)? 
Host key verification failed.

解決辦法
輸入yes，然後輸入目標機器的密碼即可

2）無金鑰配置

（1）進入到我的home目錄
```
cd  ~/.ssh
```

（2）生成公鑰和私鑰：

ssh-keygen -t rsa 
然後敲（三個回車），就會生成兩個檔案id_rsa（私鑰）、id_rsa.pub（公鑰）

（3）將公鑰拷貝到要免密登入的目標機器上
```
ssh-copy-id 目標機器主機名或IP地址
```

3）.ssh資料夾下的檔案功能解釋
- （1）~/.ssh/known_hosts ：記錄ssh訪問過計算機的公鑰(public key)
- （2）id_rsa ：生成的私鑰
- （3）id_rsa.pub ：生成的公鑰
- （4）authorized_keys ：存放授權過得無祕登入伺服器公鑰

（5）rsync

rsync遠端同步工具，主要用於備份和映象。具有速度快、避免複製相同內容和支援符號連結的優點。
- 1）檢視rsync使用說明
```
man rsync | more
```
- 2）基本語法
```
rsync  -rvl                 $pdir/$fname                       [email protected]$host:$pdir
命令   命令引數   要拷貝的檔案路徑/名稱   目的使用者@主機:目的路徑
```
- 3）案例實操
  
  把本機/opt/tmp目錄同步到hadoop103伺服器的root使用者下的/opt/tmp目錄
```
rsync –rvl /opt/tmp/*  [email protected]:/op t/tmp
```

（6）編寫叢集分發指令碼xsync

1）需求分析：迴圈複製檔案到所有節點的相同目錄下。
- （1）原始拷貝：
```
rsync  –rvl     /opt/module  [email protected]:/opt/
```
- （2）期望指令碼：
  
  xsync 要同步的檔名稱
- （3）在/usr/local/bin這個目錄下存放的指令碼，可以在系統任何地方直接執行，需要制定路徑。

2）案例實操：

（1）在/usr/local/bin目錄下建立xsync檔案

#!/bin/bash
#1 獲取輸入引數個數，如果沒有引數，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 獲取檔名稱
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 獲取上級目錄到絕對路徑
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 獲取當前使用者名稱稱
user=`whoami`

#5 迴圈
for((host=103; host<105; host++)); do
        #echo $pdir/$fname [email protected]$host:$pdir
        echo --------------- hadoop$host ----------------
        rsync -rvl $pdir/$fname [email protected]$host:$pdir
done

（2）修改指令碼 xsync 具有執行許可權
```
[[email protected] bin]# chmod 777 xsync
```
（3）呼叫指令碼形式：xsync 檔名稱

（7）編寫分發指令碼xcall

1）需求分析：在所有主機上同時執行相同的命令
```
xcall +命令
```

2）具體實現

（1）在/usr/local/bin目錄下建立xcall檔案

#!/bin/bash
pcount=$#
if((pcount==0));then
        echo no args;
        exit;
fi

echo -------------localhost----------
[email protected]
for((host=101; host<=108; host++)); do
        echo ----------hadoop$host---------
        ssh hadoop$host [email protected]
done

（2）修改指令碼 xcall 具有執行許可權
```
[[email protected] bin]# chmod 777 xcall
```

（3）呼叫指令碼形式： xcall 操作命令

[[email protected] ~]# xcall rm -rf /opt/tmp/profile

（8）基於偽分散式部署叢集

1）叢集部署規劃

規劃原則：儘量將耗記憶體的任務分散開來

	Hadoop102	Hadoop103	Hadoop104
HDFS	NameNode		SecondaryNameNode
	DataNode	DataNode	DataNode
YARN	NodeManager	ResourceManager	NodeManager

2）配置檔案

（1）core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop102:8020</value>
</property>

<!-- 指定hadoop執行時產生檔案的儲存目錄 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

（2）Hdfs

hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

hdfs-site.xml

<configuration>   
    <property>
      <name>dfs.replication</name>
      <value>3</value>
    </property>

    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop104:50090</value>
    </property>
</configuration>

slaves
```
hadoop102
hadoop103
hadoop104
```

（3）yarn

yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

yarn-site.xml

<configuration>
    <!-- Site specific YARN configuration properties -->
    <!-- reducer獲取資料的方式 -->
    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定YARN的ResourceManager的地址 -->
    <property>
      <name>yarn.resourcemanager.hostname</name>
      <value>hadoop103</value>
    </property>
</configuration>

（4）mapreduce

mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.7.0_79

mapred-site.xml

<configuration>
    <!-- 指定mr執行在yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

3）在叢集上分發以上所有檔案

cd /opt/module/hadoop-2.7.2/etc/hadoop
xsync /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
xsync /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
xsync /opt/module/hadoop-2.7.2/etc/hadoop/slaves

4）檢視檔案分發情況

xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/slaves

（9）叢集啟動及測試

1）啟動叢集

（0）如果叢集是第一次啟動，需要格式化namenode

[[email protected] hadoop-2.7.2]# bin/hdfs namenode –format

（1）啟動HDFS

[[email protected] hadoop-2.7.2]$ sbin/start-dfs.sh

啟動之後驗證
[[email protected] hadoop-2.7.2]$ jps
3690 DataNode
9550 Jps
3583 NameNode

[[email protected] hadoop-2.7.2]$ jps
9095 Jps
3435 DataNode

[[email protected] hadoop-2.7.2]$ jps
3432 DataNode
9371 Jps
3518 SecondaryNameNode

（2）啟動yarn

注意：Namenode和ResourceManger如果不是同一臺機器，不能在NameNode上啟動 yarn，應該在ResouceManager所在的機器上啟動yarn。
```
sbin/start-yarn.sh
```

2）叢集基本測試

（1）上傳檔案到叢集

上傳小檔案

bin/hdfs dfs –mkdir –p /user/atguigu/tmp/conf
bin/hdfs dfs –put etc/hadoop/*-site.xml /user/atguigu/tmp/conf

上傳大檔案

[[email protected] hadoop-2.7.2]$ bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz  /user/atguigu/input

（2）上傳檔案後檢視檔案存放在什麼位置

檔案儲存路徑

[[email protected] subdir0]$ pwd
/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-938951106-192.168.10.107-1495462844069/current/finalized/subdir0/subdir0

檢視檔案內容

[[email protected] subdir0]$ cat blk_1073741825
hadoop
atguigu
atguigu

（3）拼接

-rw-rw-r--. 1 atguigu atguigu 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 atguigu atguigu   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 atguigu atguigu  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 atguigu atguigu    495635 5月  23 16:01 blk_1073741837_1013.meta
[[email protected] subdir0]$ cat blk_1073741836>>tmp.file
[[email protected] subdir0]$ cat blk_1073741837>>tmp.file
[[email protected] subdir0]$ tar -zxvf tmp.file

（4）下載

[[email protected] hadoop-2.7.2]$ bin/hadoop fs -get /user/atguigu/input/hadoop-2.7.2.tar.gz

3）叢集效能測試
- 寫海量資料
- 讀海量資料

（9）Hadoop啟動停止方式
- 1）各個服務元件逐一啟動
  - （1）分別啟動hdfs元件
```
hadoop-daemon.sh  start|stop  namenode|datanode|secondarynamenode
```
  - （2）啟動yarn
```
yarn-daemon.sh  start|stop  resourcemanager|nodemanager
```
- 2）各個模組分開啟動（配置ssh是前提）常用
  - （1）整體啟動/停止hdfs
```
start-dfs.sh
stop-dfs.sh
```
  - （2）整體啟動/停止yarn
```
start-yarn.sh
stop-yarn.sh
```
  - 3）全部啟動（不建議使用）
```
start-all.sh
stop-all.sh
```

（11）配置叢集常見問題

1）防火牆沒關閉、或者沒有啟動yarn

INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032

2）主機名稱配置錯誤
3）ip地址配置錯誤
4）ssh沒有配置好
5）root使用者和atguigu兩個使用者啟動叢集不統一
6）配置檔案修改不細心

7）未編譯原始碼

Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/05/22 15:38:58 INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032

8）datanode不被namenode識別問題

Namenode在format初始化的時候會形成兩個標識，blockPoolId和clusterId。新的datanode加入時，會獲取這兩個標識作為自己工作目錄中的標識。

一旦namenode重新format後，namenode的身份標識已變，而datanode如果依然持有原來的id，就不會被namenode識別。

解決辦法，刪除datanode節點中的資料後，再次重新格式化namenode。

Hadoop系列005-Hadoop執行模式（下）

本人微信公眾號，歡迎掃碼關注！ Hadoop執行模式（下） 2.3、完全分散式部署Hadoop 1）分析： 1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱） 2）安裝jdk 3）配置環境變數 4）安裝hadoop 5）配置環境變數

Hadoop系列004-Hadoop執行模式（上）

title: Hadoop系列004-Hadoop執行模式（上） date: 2018-11-20 14:27:00 updated: 2018-11-20 14:27:00 categories: Hadoop tags: [Hadoop,框架,執行模式] 本人微信公眾號，歡迎掃碼關注！

跟我學設計模式視頻教程——管擦者模式（下），責任鏈模式（上）

tar eight color font content 設計模式 name -m ack 課程視頻觀察者模式（下）責任鏈模式（上）課程筆記課程筆記課程代碼課程代碼新課程火熱報名中課程介紹

C#設計模式系列：橋接模式（Bridge）

span -i 原來派生引用分享圖片 on() 版本 nta 1.1定義　當一個抽象可能有多個實現時，通常用繼承來進行協調。抽象類定義對該抽象的接口，而具體的子類則用不同的方式加以實現。繼承機制將抽象部分與它的實現部分固定在一起，使得難以對抽象部分和實現部分獨立地進行

第12課 - 實模式到保護模式（下）

文本選擇字符串結束使用 hello 移除 mode back fdt 不一般的jmp(s16->s32) 在16位代碼中，所有的立即數默認為16位從16位代碼段跳轉到32位代碼段時，必須做強制轉換　　深入保護模式：定義顯存段

Java設計模式簡介（四）：行為型模式（下）

其實每個設計模式都是很重要的一種思想，看上去很熟，其實是因為我們在學到的東西中都有涉及，儘管有時我們並不知道，其實在Java本身的設計之中處處都有體現，像AWT、JDBC、集合類、IO管道或者是Web框架，裡面設計模式無處不在。因為我們篇幅有限，很難講每一個設計模式都講的很詳細。本章講講

資料結構和算法系列3--複雜度分析（下）

複雜度分析的4個概念 1.最壞情況時間複雜度：程式碼在最理想情況下執行的時間複雜度。 2.最好情況時間複雜度：程式碼在最壞情況下執行的時間複雜度。 3.平均時間複雜度：用程式碼在所有情況下執行的次數的加權平均值表示。 4.均攤時間複雜度：在程式碼執行的所有複雜度情況中絕大部分是低級別的複

設計模式總結篇系列：建造者模式（Builder）

關於建造者模式網上有很多文章，也有些不同的理解。在此結合網上其他文章對建造者模式進行總結。總體說來，建造者模式適合於一個具有較多的零件（屬性）的產品（物件）的建立過程。根據產品建立過程中零件的構造是否具有一致的先後順序，可以將其分為如下兩種形式。一、通過Client、Director、Builder和

網路穿透與音視訊技術(2)——NAT的概念及工作模式（下）

3、四種NAT對映實現方式上文中我們已經提到三種NAT對映模式，它們是靜態對映（Static NAT）、動態對映（Pooled NAT）和網路地址埠對映（NAPT/PAT），又由於NAPT/PAT對映模式的靈活性和複用性最好，所以它又是目前應用最廣泛的一種對

java day25 多執行緒（下）單例類（Runtime,Timer

25.01_多執行緒(單例設計模式)(掌握) 單例設計模式：保證類在記憶體中只有一個物件。如何保證類在記憶體中只有一個物件呢？ (1)控制類的建立，不讓其他類來建立本類的物件。private (2)在本類中定義一個本類的物件。Singl

moduo網路庫的reactor模式（下）：實現非阻塞TCP網路

1、在reactor框架下加入tcp Unix下的tcp連線也是經由socket檔案描述符（sockfd）實現的。此節只是封裝了listening sockefd進行監聽（accept(2)），得到的新連線（普通sockfd）直接提供給使用者讓使用者自行處理。下一節才進一步

戲（細）說Executor框架執行緒池任務執行全過程（下）

上一篇文章中通過引入的一個例子介紹了在Executor框架下，提交一個任務的過程，這個過程就像我們老大的老大要找個老大來執行一個任務那樣簡單。並通過剖析ExecutorService的一種經典實現ThreadPoolExecutor來分析接收任務的主要邏輯，發現ThreadPoolExecu

Spark執行模式（一）－－－－－Spark獨立模式

除了可以在Mesos或者YARN叢集管理器上執行Spark外，Spark還提供了獨立部署模式。你可以通過手動啟動一個master和workers,或者使用提供的指令碼來手動地啟動單獨的叢集模式。你也可以在一臺單獨的機器上啟動這些程序用來測試。以獨立模式安裝Spark叢集

clr的執行模型（下）

兼容派生類標準模型環境程序集托管最小詳細 1.1 通用類型系統 Common type system用於描述類型的定義和行為，具體可以看ECMA,最好了解一下es5 es6。一個類可以包含0個或多個成員，字段、方法、屬性、事件。 Private 類內部

Spark入門實戰系列--3.Spark程式設計模型（下）--IDEA搭建及實戰

1 package class3 2 3 import org.apache.spark.SparkContext._ 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 object Join{ 7 def

C#基礎系列——委託和設計模式（二）

前言：前篇 C#基礎系列——委託實現簡單設計模式簡單介紹了下委託的定義及簡單用法。這篇打算從設計模式的角度去解析下委託的使用。我們知道使用委託可以實現物件行為（方法）的動態繫結，從而提高設計的靈活性。上次說過，方法可以理解為委託的例項，站在方法的層面，委託例項的一個非常有用的特性是它既不知道，也不關心其封裝

探索ASP.NET MVC5系列之~~~3.檢視篇（下）---包含常用表單和暴力解猜防禦

其實任何資料裡面的任何知識點都無所謂，都是不重要的，重要的是學習方法，自行摸索的過程（不妥之處歡迎指正）這幾天忙著幫別人普及安全，今天就把這篇文章結束掉，明天講下 “過度提交” 的防禦。這次開篇就激烈點==》爆破演示：開啟Burp 設定監聽埠==》8080 設定一下代理：

php常見的四種執行模式（SAPI）

SAPI:Server Application Programming Interface 伺服器端應用程式設計埠。它就是PHP與其它應用互動的介面，PHP指令碼要執行有很多種方式，通過Web伺服器，或者直接在命令列下，也可以嵌入在其他程式中。 SAPI提供了一個和外部通

Android外掛化探索（四）免安裝執行Activity（下）

在上一篇中，我們介紹了兩種免安裝啟動Activity的方法。但是那兩種方法都有缺陷，必須在AndroidManifest.xml中註冊。那麼今天，我們來探索其它幾種不需要在清單檔案中註冊的啟動方式。靜態代理啟動activity 通過前幾篇的探索我們

ios開發系列之記憶體洩漏分析（下）

接上篇，本篇主要講解通知和 KVO 不移除觀察者、block 迴圈引用、NSThread 和 RunLoop一起使用造成的記憶體洩漏。 1、通知造成的記憶體洩漏 1.1、ios9 以後，一般的通知，都不再需要手動移除觀察者，系統會自動在dealloc 的時候呼叫 [[NSNotificationCenter

Hadoop系列005-Hadoop執行模式（下）

Hadoop執行模式（下）

2.3、完全分散式部署Hadoop

相關推薦