Hadoop執行模式

阿新 • • 發佈：2018-12-04

1）官方網址

（1）官方網站：
    http://hadoop.apache.org/
（2）各個版本歸檔庫地址
    https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/
（3）hadoop2.7.4版本詳情介紹
    http://hadoop.apache.org/docs/r2.7.4/

2）Hadoop執行模式

（1）本地模式（預設模式）：
    不需要啟用單獨程序，直接可以執行，測試和開發時使用。
（2）偽分散式模式：
    等同於完全分散式，只有一個節點。
（3）完全分散式模式：
    多個節點一起執行。

3）執行Hadoop 案例

3.1 本地檔案執行Hadoop 案例
3.1.1 官方grep案例
1）建立在hadoop-2.7.4檔案下面建立一個input資料夾

        [[email protected] hadoop-2.7.4]$ mkdir input

2）將hadoop的xml配置檔案複製到input

[[email protected] hadoop-2.7.4]$ cp etc/hadoop/*.xml input/

3）執行share目錄下的mapreduce程式

    [[email protected] hadoop-2.7.4]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar  grep input output 'dfs[a-z.]+'

4）檢視輸出結果

[[email protected] hadoop-2.7.4]$ cat output/*

3.1.2 官方wordcount案例
1）建立在hadoop-2.7.4檔案下面建立一個wcinput資料夾

[[email protected] hadoop-2.7.4]$ mkdir wcinput

2）在wcinput檔案下建立一個wc.input檔案

[[email protected] wcinput]$ touch wc.input

3）編輯wc.input檔案

[[email protected] 
 hadoop-2.7.4]$ vim wc.input

hadoop yarn
hadoop mapreduce
zhihua
zhihua
xiaoming
xiaoxiao
daxiong
daxiong
daxiong

4）回到hadoop目錄/opt/module/hadoop-2.7.4

5）執行程式：

[[email protected] hadoop-2.7.4]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar  wordcount wcinput wcoutput

6）檢視結果：

[[email protected] hadoop-2.7.4]$ cat wcoutput/p*   
daxiong 3
hadoop  2
mapreduce   1
xiaoming    1
xiaoxiao    1
yarn    1
zhihua  2

3.2 偽分散式執行Hadoop案例

3.2.1 啟動HDFS並執行MapReduce程式
1）分析：

    （1）準備1臺客戶機
    （2）安裝jdk
    （3）配置環境變數
    （4）安裝hadoop
    （5）配置環境變數
    （6）配置叢集
    （7）啟動、測試叢集增、刪、查
    （8）執行wordcount案例

2）執行步驟
（1）配置叢集

（a）配置：hadoop-env.sh

修改JAVA_HOME 路徑：
這裡寫圖片描述

（b）配置：core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop101:9000</value>
</property>

<!-- 指定hadoop執行時產生檔案的儲存目錄 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/hadoop-2.7.4/data/tmp</value>
</property>

這裡寫圖片描述

（c）配置：hdfs-site.xml

<!-- 指定HDFS副本的數量 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

這裡寫圖片描述

（2）啟動叢集
（a）格式化namenode（第一次啟動時格式化，以後就不要總格式化）

bin/hdfs namenode -format

（b）啟動namenode

sbin/hadoop-daemon.sh start namenode

（c）啟動datanode

sbin/hadoop-daemon.sh start datanode

（3）檢視叢集
（a）檢視是否啟動成功

[[email protected] hadoop-2.7.4]# jps
2761 Jps
2586 NameNode
2686 DataNode

（b）檢視產生的log日誌

（c）web端檢視HDFS檔案系統

http://hadoop101:50070/dfshealth.html#tab-overview

注意：如果不能檢視，看如下帖子處理
http://www.cnblogs.com/zlslch/p/6604189.html

（4）操作叢集
（a）在hdfs檔案系統上建立一個input資料夾

    [[email protected] hadoop-2.7.4]# hadoop fs -mkdir -p /user/zhihua/input

    檢視資料夾
    [[email protected] hadoop-2.7.4]# hadoop fs -lsr /

這裡寫圖片描述

（b）將測試檔案內容上傳到檔案系統上

[[email protected] hadoop-2.7.4]# hadoop fs -put wcinput/wc.input /user/zhihua/input

（c）檢視上傳的檔案是否正確

[[email protected] hadoop-2.7.4]# hadoop fs -cat /user/zhihua/input/wc.input

（d）執行mapreduce程式

[[email protected] hadoop-2.7.4]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar  wordcount /user/zhihua/input /user/zhihua/outout

（e）檢視輸出結果

命令列檢視： 
[[email protected] hadoop-2.7.4]# hadoop fs -cat /user/zhihua/outout/p*
daxiong 3
hadoop  2
mapreduce   1
xiaoming    1
xiaoxiao    1
yarn    1
zhihua  2


瀏覽器檢視

瀏覽器檢視.png

（f）將測試檔案內容下載到本地

[[email protected] hadoop-2.7.4]# hadoop fs -get /user/zhihua/outout/p* ./

（g）刪除輸出結果

[[email protected] hadoop-2.7.4]# hadoop fs -rm -r /user/zhihua/outout

3.2.2 YARN上執行MapReduce 程式
1）分析：

（1）準備1臺客戶機
（2）安裝jdk
（3）配置環境變數
（4）安裝hadoop
（5）配置環境變數
（6）配置叢集yarn上執行
（7）啟動、測試叢集增、刪、查
（8）在yarn上執行wordcount案例

2）執行步驟
（1）配置叢集
（a）配置yarn-env.sh
配置一下JAVA_HOME
這裡寫圖片描述

（b）配置yarn-site.xml

<!-- reducer獲取資料的方式 -->
<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop101</value>
</property>

這裡寫圖片描述

（c）配置：mapred-env.sh
配置一下JAVA_HOME
這裡寫圖片描述

（d）配置： (對mapred-site.xml.template重新命名為) mapred-site.xml

[[email protected] hadoop]# mv mapred-site.xml.template mapred-site.xml

<!-- 指定mr執行在yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

這裡寫圖片描述

（2）啟動叢集

（a）啟動resourcemanager

[[email protected] hadoop-2.7.4]# sbin/yarn-daemon.sh start resourcemanager

（b）啟動nodemanager

[[email protected] hadoop-2.7.4]# sbin/yarn-daemon.sh start nodemanager

（c）檢視jps

[[email protected] hadoop-2.7.4]# jps
4086 NodeManager
2586 NameNode
3834 ResourceManager
4122 Jps
2686 DataNode

（3）叢集操作
（a）yarn的瀏覽器頁面檢視

http://hadoop101:8088/cluster

（b）刪除檔案系統上的output檔案

    hadoop fs -rm -R /user/zhihua/output

（c）執行mapreduce程式

[[email protected] hadoop-2.7.4]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar  wordcount /user/zhihua/input /user/zhihua/output

（d）檢視執行結果

[[email protected] hadoop-2.7.4]# hadoop fs -cat /user/zhihua/output/p*
daxiong 3
hadoop  2
mapreduce   1
xiaoming    1
xiaoxiao    1
yarn    1
zhihua  2

這裡寫圖片描述

3.2.3 修改本地臨時檔案儲存目錄
1）停止程序

    [[email protected] hadoop-2.7.4]$ sbin/yarn-daemon.sh stop nodemanager
    [[email protected] hadoop-2.7.4]$ sbin/yarn-daemon.sh stop resourcemanager
    [[email protected] hadoop-2.7.4]$ sbin/hadoop-daemon.sh stop datanode
    [[email protected] hadoop-2.7.4]$ sbin/hadoop-daemon.sh stop namenode

2）修改core-site.xml
這裡寫圖片描述

3）格式化NameNode

將/opt/module/hadoop-2.7.4路徑中的logs資料夾刪除掉
    [[email protected] hadoop-2.7.4]$ rm -rf logs/
進入到tmp目錄將tmp目錄中hadoop-atguigu目錄刪除掉
    [[email protected] hadoop-2.7.4]$ rm -rf hadoop-atguigu/
格式化資料：
    [[email protected] hadoop-2.7.4]$ bin/hdfs namenode -format

4）啟動所有程序

[[email protected] hadoop-2.7.4]$ sbin/hadoop-daemon.sh start namenode
[[email protected] hadoop-2.7.4]$ sbin/hadoop-daemon.sh start datanode
[[email protected] hadoop-2.7.4]$ sbin/yarn-daemon.sh start resourcemanager
[[email protected] hadoop-2.7.4]$ sbin/yarn-daemon.sh start nodemanager

5）檢視/opt/module/hadoop-2.7.4/data/tmp這個目錄下的內容。

3.2.4 Hadoop配置檔案說明
Hadoop配置檔案分兩類：預設配置檔案和自定義配置檔案，只有使用者想修改某一預設配置值時，才需要修改自定義配置檔案，更改相應屬性值。
（1）預設配置檔案：存放在hadoop相應的jar包中

[core-default.xml]
            hadoop-common-2.7.4.jar/ core-default.xml
        [hdfs-default.xml]
hadoop-hdfs-2.7.4.jar/ hdfs-default.xml
        [yarn-default.xml]
hadoop-yarn-common-2.7.4.jar/ yarn-default.xml
        [core-default.xml]
hadoop-mapreduce-client-core-2.7.4.jar/ core-default.xml

（2）自定義配置檔案：存放在$HADOOP_HOME/etc/hadoop

core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml

3.2.5 歷史服務配置啟動檢視
1）配置mapred-site.xml

<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop101:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop101:19888</value>
</property>

2）檢視啟動歷史伺服器檔案目錄：

[[email protected] hadoop-2.7.4]$ ll sbin/ |grep mr
-rwxr-xr-x. 1 zhihua zhihua 4080 Aug 23  2017 mr-jobhistory-daemon.sh

3）啟動歷史伺服器

[[email protected] hadoop-2.7.4]$ sbin/mr-jobhistory-daemon.sh start historyserver

4）檢視歷史伺服器是否啟動

[[email protected] hadoop-2.7.4]$ jps
3521 NameNode
3623 DataNode
3737 ResourceManager
3995 NodeManager
4157 JobHistoryServer
4239 Jps

5）檢視jobhistory

這裡寫圖片描述

3.2.6 日誌的聚集
日誌聚集概念：應用執行完成以後，將日誌資訊上傳到HDFS系統上。
開啟日誌聚集功能步驟：
（1）配置yarn-site.xml

<!-- 日誌聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日誌保留時間設定7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

（2）關閉namenode、datanode 、nodemanager 、resourcemanager和historymanager

（3）啟動namenode、datanode 、nodemanager 、resourcemanager和historymanager

（4）刪除hdfs上已經存在的hdfs檔案

（5）執行wordcount程式

（6）檢視日誌
這裡寫圖片描述

Hadoop系列005-Hadoop執行模式（下）

本人微信公眾號，歡迎掃碼關注！ Hadoop執行模式（下） 2.3、完全分散式部署Hadoop 1）分析： 1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱） 2）安裝jdk 3）配置環境變數 4）安裝hadoop 5）配置環境變數

Hadoop系列004-Hadoop執行模式（上）

title: Hadoop系列004-Hadoop執行模式（上） date: 2018-11-20 14:27:00 updated: 2018-11-20 14:27:00 categories: Hadoop tags: [Hadoop,框架,執行模式] 本人微信公眾號，歡迎掃碼關注！

Hadoop執行模式

1）官方網址（1）官方網站： http://hadoop.apache.org/ （2）各個版本歸檔庫地址 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.4/ （3）hadoop2.7.4版本詳情介紹

Hadoop執行模式之完全分散式部署Hadoop

Hadoop執行模式之完全分散式部署Hadoop 1 完全分散式部署Hadoop 分析： 1）準備3臺客戶機（關閉防火牆、靜態ip、主機名稱） 2）安裝jdk 3）配置環境變數 4）安裝hadoop 5）配置環境變數 6）安裝ssh

Hadoop之執行模式

　　Hadoop執行模式包括：本地模式、偽分散式以及完全分散式模式。一、本地執行模式 1、官方Grep案例　　1）在hadoop-2.7.2目錄下建立一個 input 資料夾 [[email protected] hadoop-2.7.2]$ mkdir input 　　2）

Hadoop之搭建完全分散式執行模式

一、過程分析　　1、準備3臺客戶機（關閉防火牆、修改靜態ip、主機名稱）　　2、安裝JDK 　　3、配置環境變數　　4、安裝Hadoop 　　5、配置叢集　　6、單點啟動　　7、配置ssh免密登入　　8、群起並測試叢集二、編寫叢集分發指令碼 xsync 1、s

Hadoop本地執行模式下執行官方案例（Grep和WordCount）

官方Grep案例 #1,在hadoop-2.7.2檔案下建立input資料夾 [[email protected] hadoop-2.7.2]$ mkdir input [[email protected] hadoop-2.7.2]$ ll 總用量 56 drwx

思特奇筆試題：Hadoop的三種執行模式：

1.獨立（本地）執行模式：無需任何守護程序，所有的程式都執行在同一個JVM上執行。在獨立模式下除錯MR程式非常高效方便。所以一般該模式主要是在學習或者開發階段除錯使用。 &nb

Hadoop-基本模組，執行模式，配置檔案，namenode,datanode,secondarynamenode作用

hadoop模組： Hadoop Common：支援其他Hadoop模組的常用實用程式。 Hadoop分散式檔案系統（HDFS™）：一種分散式檔案系統，可提供對應用程式資料的高吞吐量訪問。 &nbs

hadoop[11]-本地執行模式

每次除錯都打包上傳到伺服器，效率很低，所以可以在本地模擬執行，以第9節的程式碼為例，設定要處理的文字和輸出目錄為本地目錄： //設定要處理的文字資料存放路徑 FileInputFormat.setInputPaths(wordCountJob, "d:/wordcount/srcdata"); //設

linux 安裝hadoop 的四大執行模式——HA高可用分佈模式（版本2.9.1）

hadoop的HA高可用配置：hadoop的名稱節點部署在不同的伺服器上（簡單理解），具體定義請自行查詢備註：簡述過程如果前面步驟按步驟進行，後續的步驟就不做詳細解釋準備：建立h105作為高可用的名稱節點（namenode），一般會再建議一個數據節點（及配置4個數據節點，兩個名稱節點），

linux 安裝hadoop 的四大執行模式——完全分佈模式（版本2.9.1）

hadoop完全分散式模式：hadoop的守護執行緒在不同的伺服器上（具體定義請自行查詢）本機部署：實在前一篇文章偽分散式部署下進行操作的：偽分佈部署連結：https://blog.csdn.net/weixin_39435629/article/details/84841252 前

linux 安裝hadoop 的四大執行模式——偽分佈模式（版本2.9.1）

hadoop偽分佈模式：hadoop的守護程序在同一臺伺服器上（具體定義請自行查詢）前提：請在閱讀《linux 安裝hadoop 的四大執行模式——本地模式》的基礎上進行閱讀 1、將本地模式的配置檔案複製出來建立軟連線，便於後續方便使用執行命令：$>cp -r &

linux 安裝hadoop 的四大執行模式——本地模式（版本2.9.1）

四大模式包括： 1、本地模式（獨立模式）：（無需任何守護程序，直接執行在JVM上，儲存檔案相當於伺服器本地檔案） 2、偽分佈模式(各個程序執行在hadoop的守護程序中，但並不是真正的分散式，因為都在一臺機器上) 3、完全分散式（各個程序執行在多個伺服器上） 4、HA高可用配置（兩個

Hadoop之本地執行模式詳解

Hadoop的執行模式分為3種：本地執行模式，偽分佈執行模式，叢集執行模式，相應概念如下： 1、獨立模式即本地執行模式（standalone或local mode）無需執行任何守護程序（daemon），所有程式都在單個JVM上執行。由於在本機模式下測試和

hadoop單機模式的構建、配置與執行測試步驟(ubuntu14.04)

PS：全程以root的角色進行配置安裝本篇文章的前期準備工作可以看我之前的部落格連結：參照上面兩篇文章，設定好機器環境和準備好檔案包，這篇文章是以下載好相應的jdk、hadoop檔案的

Hadoop HA 模式下執行spark 程式

（1）將Hadoop的hdfs-site.xml 和core-site.xml檔案複製到spark/conf目錄下（2）追加如下內容到 spark-defaults.conf檔案 spark.files file:///home/hadoop/spar

hadoop的三種執行模式區別及配置詳解

基於hadoop進行開發時，有時候，會被hadoop的三種執行模式搞混，也會被hadoop叢集有哪些配置弄得暈頭轉向，因為看不同的文件有不同的配置方法。所以要先弄明白hadoop的執行模

HADOOP的執行模式

Hadoop的執行，分三種模式：單機模式，偽分佈模式，完全分佈模式。單機模式：單機模式是hadoop預設的模式；主要用於開發除錯MapReduce程式的應用邏輯；不會和守護程序互動；程式在一個jvm虛擬機器上執行。偽分佈模式：在“單節點叢集

hadoop初識之三：搭建hadoop環境（配置HDFS，Yarn及mapreduce 執行在yarn）上及三種執行模式（本地模式，偽分散式和分散式介）

--===============安裝jdk（解壓版）================== --root 使用者登入 --建立檔案層級目錄 /opt下分別建 modules/softwares/datas/tools 資料夾 --檢視是否安裝jdk rpm -

Hadoop執行模式

1）官方網址

2）Hadoop執行模式

3）執行Hadoop 案例

相關推薦