MapReduce-提交job原始碼分析

阿新 • • 發佈：2018-11-23

　　　　　　　　　　　　　　　　　　　　MapReduce-提交job原始碼分析

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑

版權宣告：原創作品，謝絕轉載！否則將追究法律責任。

一.環境準備

1>.順手的IDE，大家可以根據自己的喜好選擇你喜歡的IDE

　　博主推薦以下2款IDE，大家可以自行百度官網，也看看我之前調研的筆記：

　　　　eclipse：https://www.cnblogs.com/yinzhengjie/p/8733302.html

　　　　idea：https://www.cnblogs.com/yinzhengjie/p/9080387.html

（我比較推薦它，挺好使的，而且我們公司的好多開發也在用它開發呢~）

2>.編寫Wordcount程式碼

/*
@author :yinzhengjie
Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/
EMAIL:[email protected]
*/
package mapreduce.yinzhengjie.org.cn;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
 
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;


public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

    Text k = new Text();
    IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context)
             
throws IOException, InterruptedException {

        // 1 獲取一行
        String line = value.toString();

        // 2 切割
        String[] words = line.split(" ");

        // 3 輸出
        for (String word : words) {

            k.set(word);
            context.write(k, v);
        }
    }
}

WordcountMapper.java 檔案內容

/*
@author :yinzhengjie
Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/
EMAIL:[email protected]
*/
package mapreduce.yinzhengjie.org.cn;

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

    @Override
    protected void reduce(Text key, Iterable<IntWritable> value,
                          Context context) throws IOException, InterruptedException {

        // 1 累加求和
        int sum = 0;
        for (IntWritable count : value) {
            sum += count.get();
        }

        // 2 輸出
        context.write(key, new IntWritable(sum));
    }
}

WordcountReducer.java 檔案內容

 1 /*
 2 @author :yinzhengjie
 3 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/
 4 EMAIL:[email protected]
 5 */
 6 package mapreduce.yinzhengjie.org.cn;
 7 
 8 import java.io.IOException;
 9 import org.apache.hadoop.conf.Configuration;
10 import org.apache.hadoop.fs.Path;
11 import org.apache.hadoop.io.IntWritable;
12 import org.apache.hadoop.io.Text;
13 import org.apache.hadoop.mapreduce.Job;
14 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
15 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
16 
17 public class WordcountDriver {
18 
19     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
20 
21         //配置Hadoop的環境變數，如果沒有配置可能會拋異常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，還有一件事就是你的HADOOP_HOME的bin目錄下必須得有winutils.exe
22         System.setProperty("hadoop.home.dir", "D:/yinzhengjie/softwares/hadoop-2.7.3");
23 
24         //獲取配置資訊
25         Configuration conf = new Configuration();
26         Job job = Job.getInstance(conf);
27 
28         //設定jar載入路徑
29         job.setJarByClass(WordcountDriver.class);
30 
31         //設定map和Reduce類
32         job.setMapperClass(WordcountMapper.class);
33         job.setReducerClass(WordcountReducer.class);
34 
35         //設定map輸出
36         job.setMapOutputKeyClass(Text.class);
37         job.setMapOutputValueClass(IntWritable.class);
38 
39         //設定Reduce輸出
40         job.setOutputKeyClass(Text.class);
41         job.setOutputValueClass(IntWritable.class);
42 
43         //設定輸入和輸出路徑
44         FileInputFormat.setInputPaths(job, new Path(args[0]));
45         FileOutputFormat.setOutputPath(job, new Path(args[1]));
46 
47         //等待job提交完畢
48         boolean result = job.waitForCompletion(true);
49 
50         System.exit(result ? 0 : 1);
51     }
52 }

WordcountDriver.java 檔案內容

Kafka is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies.

1.txt 測試資料

3>.配置相關引數

4>.打斷點，點選debug進行除錯

二.程式碼除錯過程

1>.單步進入

2>.進入submit()方法

3>.進入connect()的方法

　　新舊的API對比,可檢視官網：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/DeprecatedProperties.html

4>.

5>.

6>.

7>.

三.總結

1>.簡介job提交原始碼分析

waitForCompletion()
submit();
// 1建立連線
    connect();    
        // 1）建立提交job的代理
        new Cluster(getConfiguration());
            // （1）判斷是本地yarn還是遠端
            initialize(jobTrackAddr, conf); 
    // 2 提交job
submitter.submitJobInternal(Job.this, cluster)
    // 1）建立給叢集提交資料的Stag路徑
    Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
    // 2）獲取jobid ，並建立job路徑
    JobID jobId = submitClient.getNewJobID();
    // 3）拷貝jar包到叢集
copyAndConfigureFiles(job, submitJobDir);    
    rUploader.uploadFiles(job, jobSubmitDir);
// 4）計算切片，生成切片規劃檔案
writeSplits(job, submitJobDir);
    maps = writeNewSplits(job, jobSubmitDir);
        input.getSplits(job);
// 5）向Stag路徑寫xml配置檔案
writeConf(conf, submitJobFile);
    conf.writeXml(out);
// 6）提交job,返回提交狀態
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

2>.網上找的一張流程圖，畫得挺命令，摘下來方便自己以後理解

MapReduce-提交job原始碼分析

　　　　　　　　　　　　　　　　　　　　MapReduce-提交job原始碼分析　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權宣告：原創作品，謝絕轉載！否則將追究法律責任。一.環境準備 1&g

Flink命令列提交job (原始碼分析)

這篇文章主要介紹從命令列到任務在Driver端執行的過程通過flink run 命令提交jar包執行程式以yarn 模式提交任務命令類似於： flink run -m yarn-cluster XXX.jar 先來看一下指令碼中的呼叫類在flink.sh指令碼中可以看到提交的命令走到了這

Spark 2.x 提交Job原始碼淺析

大家都知道，spark job的提交是觸發了Action操作，現在我在RDD.scala中找到collect運算元，在這下面是有一個runjob方法 def collect(): Array[T] = withScope { val results = sc.runJob(th

XXL Job原始碼分析

一.XXL JOB專案原始碼整體概括 1. 原始碼整體概括說明這個專案是作為工程開發的同學們很值得學習的一個開源專案。程式碼整體風格比較好，模組化清晰。程式碼邏輯遵行Web的MVC架構，採用Spring boot + Mybatis的框架組合來組織程式碼。程

【kubernetes/k8s原始碼分析】kubectl-controller-manager之job原始碼分析

job介紹 Job: 批量一次性任務，並保證處理的一個或者多個Pod成功結束非並行Job: 固定完成次數的並行Job: 帶有工作佇列的並行Job: SPEC引數 .spec.completions:

flink1.10版local模式提交job流程分析

1、WordCount程式例項 ![](https://img2020.cnblogs.com/blog/2204822/202011/2204822-20201119193833769-1741975195.png) 2、本地監聽9000埠後測試結果 ![](https://img2020.cnblogs.

Hadoop提交Job Client端原始碼分析

在之前分析了hadoop執行jar的流程分析（部落格連結http://blog.csdn.net/a822631129/article/details/50310903），分析到了執行使用者寫的mapreduce程式，本文分析mapreduce程式中hadoop clien

MapReduce任務提交原始碼分析

　　為了測試MapReduce提交的詳細流程。需要在提交這一步打上斷點：　　F7進入方法：　　進入submit方法：　　注意這個connect方法，它在連線誰呢？我們知道，

MapReduce的原始碼分析中map端輸出的原始碼分析

分割槽：只有一個reduce的情況下，partition號為0 分割槽大有1的情況下，採用hash的方法：在輸入階段最核心的類是linerecorderReader() 在輸出階段最核心的類是mapoutputbuffer() 達到80%的

Hadoop2原始碼分析－MapReduce v2架構

1.概述　　前面我們已經對Hadoop有了一個初步認識，接下來我們開始學習Hadoop的一些核心的功能，其中包含mapreduce，fs，hdfs，ipc，io，yarn，今天為大家分享的是mapreduce部分，其內容目錄如下所示： MapReduce V1 M

Spark2.x原始碼分析---spark-submit提交流程

本文以spark on yarn的yarn-cluster模式進行原始碼解析，如有不妥之處，歡迎吐槽。步驟1.spark-submit提交任務指令碼 spark-submit --class 主類路徑 \ --master yarn \ --deploy-mode c

MapReduce原始碼分析之InputSplit分析

前言 MapReduce的原始碼分析是基於Hadoop1.2.1基礎上進行的程式碼分析。什麼是InputSplit InputSplit是指分片，在MapReduce當中作業中，作為map task最小輸入單位。分片是基於檔案基礎上出來的而來的概念，通俗的理

原始碼分析Elastic-Job前置篇：Spring自定義名稱空間原理

在Spring中使用Elastic-Job的示例如下：  <reg:zookeeper id="regCenter" server-lists="${gis.dubbo.registry.address}"

MapReduce的原始碼分析

map端的輸出是reduce端的輸入。切片的資訊設定塊的最大值和最小值設定切片的最大值和最小值設定reduce task的個數如果reduce環節為0，那麼就是說沒有reduce環節如果reduce的個數不為零，那麼

RocketMQ原始碼分析之RocketMQ事務訊息實現原理上篇(二階段提交)

根據上文的描述，傳送事務訊息的入口為： TransactionMQProducer#sendMessageInTransaction： public TransactionSendResult sendMessageInTransaction(final Message msg, final Object