Hadoop Mapreduce運行流程

阿新 • • 發佈：2018-10-11

rgs sub frame 退出 16px extend cte ont 提交

Mapreduce的運算過程為兩個階段：

　　第一個階段的map task相互獨立，完全並行；

　　第二個階段的reduce task也是相互獨立，但依賴於上一階段所有map task並發實例的輸出；

這些task任務分布在多臺機器運行，它的運行管理是有一個master負責，這個master由yarn負責啟動，那麽yarn如何知道啟動多少個map task進程去計算呢？

下面概述一下Mapreduce的執行流程：

1、客戶端首先會訪問hdfs的namenode獲取待處理數據的信息（文件數及文件大小），形成一個任務分配計劃（會寫入配置文件）；

2、這個任務分配計劃以及配置文件都會交給yarn，yarn根據自己所掌握的各機器資源情況，去啟動mr appmaster；

3、mr appmaster根據配置文件負責啟動map task任務進程；

4、map task去datanode分行讀取數據，交給自定義的mapper，輸出的context.write(key,value)，

　　再交給outputcollecter輸出到本機的一個分區文件(後面有幾個reduce task就有幾個分區)；

5、所有的map task執行完，mr appmaster再去啟動reduce task；

6、reduce task進程對每一組key相同的<key，value>調用一次自定義的reducer；

7、reduce task的計算結果會不斷追加寫入設置好的hdfs的路徑中；

8、整個程序需要一個driver來提交，提交的是一個描述了各種必要信息的job對象。

代碼示例：

WordCountMap.java

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

 
/**
 * Mapper的第一個參數：KEYIN: 默認情況下，是mr框架所讀到的一行文本的起始偏移量，Long,
 * 但是在hadoop中有自己的更精簡的序列化接口，所以不直接用Long，而用LongWritable
 * Mapper的第二個參數：VALUEIN:默認情況下，是mr框架所讀到的一行文本的內容，String，同上，用Text
 * Mapper第三個參數：KEYOUT：是用戶自定義邏輯處理完成之後輸出數據中的key，在此處是單詞，String，同上，用Text
 * Mapper第四個參數：VALUEOUT：是用戶自定義邏輯處理完成之後輸出數據中的value，在此處是單詞次數，Integer，同上，用IntWritable
 */
public class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable>{

    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
            throws IOException, InterruptedException {
        //將maptask傳給我們的文本內容先轉換成String
        String line = value.toString();
        //根據空格將這一行切分成單詞
        String[] words = line.split(" ");
        
        //將單詞輸出為<單詞，1>
        for(String word:words) {
            //將單詞作為key，將次數1作為value，以便於後續的數據分發，可以根據單詞分發，以便於相同單詞會到相同的reduce task
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

WordCountReduce.java

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.WordCount.Reduce;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * KEYIN, VALUEIN 對應  mapper輸出的KEYOUT,VALUEOUT類型對應
 * KEYOUT, VALUEOUT 是自定義reduce邏輯處理結果的輸出數據類型
 * KEYOUT是單詞
 * VLAUEOUT是總次數
 */

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    /**
     * <hello,1><hello,1><hello,1><hello,1><hello,1><hello,1>
     * <banana,1><banana,1><banana,1><banana,1><banana,1><banana,1>
     * 入參key，是一組相同單詞kv對的key
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
        int count=0;
        
        for(IntWritable value:values) {
            count += value.get();
        }
        
        context.write(key, new IntWritable(count));
    }
}

WordcountDriver.java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 相當於一個yarn集群的客戶端
 * 需要在此封裝我們的mr程序的相關運行參數，指定jar包
 * 最後提交給yarn
 */
public class WordcountDriver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        //是否運行為本地模式，就是看這個參數值是否為local，默認就是local
        /*conf.set("mapreduce.framework.name", "local");*/
        
        //本地模式運行mr程序時，輸入輸出的數據可以在本地，也可以在hdfs上
        //到底在哪裏，就看以下兩行配置你用哪行，默認就是file:///
        /*conf.set("fs.defaultFS", "hdfs://192.168.1.110:9000/");*/
        /*conf.set("fs.defaultFS", "file:///");*/
                
        //運行集群模式，就是把程序提交到yarn中去運行
        //要想運行為集群模式，以下3個參數要指定為集群上的值
        /*conf.set("mapreduce.framework.name", "yarn");
        conf.set("yarn.resourcemanager.hostname", "192.168.1.110");
        conf.set("fs.defaultFS", "hdfs://192.168.1.110:9000/");*/
        
        Job job = Job.getInstance(conf);//指定本程序的jar包所在的本地路徑
        job.setJarByClass(WordcountDriver.class);
        
        //指定本業務job要使用的mapper/Reducer業務類
        job.setMapperClass(WordCountMap.class);
        job.setReducerClass(WordCountReduce.class);
        
        //指定mapper輸出數據的kv類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        
        //指定最終輸出的數據的kv類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        //指定需要使用combiner，以及用哪個類作為combiner的邏輯
        job.setCombinerClass(WordCountReduce.class);
        
        //如果不設置InputFormat，它默認用的是TextInputformat.class
        job.setInputFormatClass(CombineTextInputFormat.class);
        CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
        CombineTextInputFormat.setMinInputSplitSize(job, 2097152);
        
        //指定job的輸入原始文件所在目錄
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //指定job的輸出結果所在目錄
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //將job中配置的相關參數，以及job所用的java類所在的jar包，提交給yarn去運行
        //job.submit();  //如果submit的話，提交完任務客戶端就退出了，而不知道任務在集群上的運行情況
        boolean res = job.waitForCompletion(true);  //所以我們這裏使用wait提交，參數true表示將集群情況返回客戶端
        System.exit(res?0:1);
    }
}

Hadoop Mapreduce運行流程

rgs sub frame 退出 16px extend cte ont 提交 Mapreduce的運算過程為兩個階段：　　第一個階段的map task相互獨立，完全並行；　　第二個階段的reduce task也是相互獨立，但依賴於上一階段所有map task並發實例的

SpringMVC 運行流程

nbsp apt com over ppi mvc 視圖解析 blog 流程用戶發送請求到DispatchServlet(前端控制器) DispatchServlet接收後調用HandlerMapping(處理器映射器) HandlerMapping根據傳進的UR

egametang框架服務端運行流程

實現網絡就會類型 span object awake 函數熱更新 et框架的構建塊主要由entity和componet組成，類似unity的組件。一個Entity可以掛載多個不同Component。Entity和Component的共同基類Disposer用於提

Struts2運行流程-源碼剖析

rac n) wrap sem .com xtra substring 字符集原創　　首先說一下查看這些框架源碼的感受，每一次深入探究 Spring、Struts 等框架源碼都有種深陷進去不能自拔的感覺，但是只要思路清晰，帶著心中各種疑問去一點一點深入，還是會帶給

Zabbix的運行流程

-1 流程 ges images com es2017 web mage 取數 Zabbix 有三個組件，分別是： (1) Zabbix Server ：即 Zabbix 進程，用於數據采集 (2) Zabbix Database ：用於存儲采集到的數據，通常用 MyS

打造簡潔高效的企業運行流程

簡潔高效運行流程流程組織架構目標體系市場萎縮、消費疲軟、資金短缺……相信絕非一家企業的難題。如何破解市場困局，在實力相當、毅力相同的情況下，創新能力就成了取勝的關鍵。變革組織運行流程，實行流程重組，無疑是謀求企業發展的快捷方式之一。經濟學家郎鹹平教授2008年年底率先提出，國內企

tp5.1的安裝與運行流程

reat ace rect con 需要出現問題項目文件 lec code 今天安裝tp5.1的時候出現問題，我這裏使用的是將tp直接解壓縮後放在項目裏面，結果提示下面的錯誤：Warning: require(D:\workspace\zhiyuedu\vendor/t

基礎的爬蟲框架及運行流程

去重復提取下載存儲兩個負責定義維護解析器爬蟲框架的基礎和運行流程基本的框架流程基礎爬蟲框架主要包括五大模塊、分別為爬蟲調度器、URL管理器、HTML下載器、HTML解析器、數據存

spark--運行流程

memory 發送 mage 防止 bmi 線程池正常打包分發設置權限就像在一家公司裏面總有明確的分工，每一哥部分負責自己的那一部分的任務，大家一起來維持公司的正常運轉，同樣的，spark就像是一個公司，他的裏面也有許許多多的角色組成Spark術語解釋：Master

【原創】MapReduce運行原理和過程

文件合並 pil file 運行流程 dfs lec 線程操作合並一．Map的原理和運行流程 Map的輸入數據源是多種多樣的，我們使用hdfs作為數據源。文件在hdfs上是以block(塊，Hdfs上的存儲單元)為單位進行存儲的。 1.分片我們將

PHP底層架構和運行流程

art 分享平時進行根據部分內存編程結構 PHP底層架構自底向上是一個四層體系： 1、Zend引擎：Zend整體用純C實現，是PHP的內核部分，他將PHP代碼翻譯（詞法、語法解析等一系列編譯過程）為可執行opcode的處理並實現相應的處理方法、實現了基本的數

Scrapy運行流程

alt scrapy .com 詳細 top 包括描述分享箭頭接下來的圖表展現了Scrapy的架構，包括組件及在系統中發生的數據流的概覽(綠色箭頭所示)。下面對每個組件都做了簡單介紹，並給出了詳細內容的鏈接。數據流如下所描述。來源於https://scrapy

spark記錄（5）Spark運行流程及在不同集群中的運行過程

park 通知 dag 抽取存在的區別 kill 滿足 blog 摘自：https://www.cnblogs.com/qingyunzong/p/8945933.html 一、Spark中的基本概念（1）Application：表示你的應用程序（2）Driv

python - django (創建到運行流程)

如果 back projects 查看記錄 temp 運行 install art a = 0 """ 1. 創建 Django 操作文件 a. cmd 中選擇路徑： cd C:\Users\ad\Py

Mysql修改語句的運行流程

amp 成本 das 丟失 clas 技術分享 pan family 搜索執行修改語句前要先連接數據庫，這是連接器的工作。接下來，分析器會通過詞法和語法解析知道這是一條更新語句。優化器決定要使用 ID 這個索引。然後，執行器負責具體執行，找到這一行，然後更新。 My

MapReduce運行原理和過程

設置他在輸入數據 pre .html spl 運行流程 key-value 不同顏色原文一．Map的原理和運行流程 Map的輸入數據源是多種多樣的，我們使用hdfs作為數據源。文件在hdfs上是以block(塊，Hdfs上的存儲單元)為單位進行存儲的

Python生成器generator之next和send運行流程

表達式運行流程其他 ... 一行 xrange 沒有否則重要對於普通的生成器，第一個next調用，相當於啟動生成器，會從生成器函數的第一行代碼開始執行，直到第一次執行完yield語句（第4行）後，跳出生成器函數。然後第二個next調用，進入生成器函數後，從yi

[轉]hadoop運行mapreduce作業無法連接0.0.0.0/0.0.0.0:10020

temp ide 屬性增加 mes 時間 kerberos 動態更新 lap 14/04/04 17:15:12 INFO mapreduce.Job: map 0% reduce 0% 14/04/04 17:19:42 INFO mapreduce.Job: ma

Linux鞏固記錄（5） hadoop 2.7.4下自己編譯代碼並運行MapReduce程序

parser mod pill self add let tokenize org cto 程序代碼為 ~\hadoop-2.7.4\share\hadoop\mapreduce\sources\hadoop-mapreduce-examples-2.7.4-sourc

hadoop---運行自帶的MapReduce WordCount程序

share inf .com 保存 mapred 技術分享 ima 上傳 img MapReduce入門程序：WordCount hadoop的share目錄下創建一個HDFS數據目錄，用於保存mapreduce的輸入文件創建一個目錄，用於保存m

Hadoop Mapreduce運行流程

相關推薦