《Hadoop權威指南》學習筆記（三）

阿新 • • 發佈：2018-11-13

本博文是我學習《Hadoop權威指南》第5章的筆記，主要是裡面範例程式的實現，部分實現有修改

1 Mapper測試

需要使用mrunit這個jar包，在pom.xml新增dependency的時候，要新增classifier屬性不然下載不了jar包，根據自己hadoop-core的版本來確定

<dependency>
    <groupId>org.apache.mrunit</groupId>
	<artifactId>mrunit</artifactId>
	<version>1.1.0</version>
	<classifier>hadoop2</classifier>
	<scope>test</scope>
</dependency>

編寫測試類，測試，一切從簡，你也可以嚴格按照書上的來，注意引用MapDriver的時候有兩個引用，一個是mapreduce一個是mapred，根據自己的Mapper類是哪個版本來，mapred是老版本

package com.tuan.hadoopLearn.io.com.tuan.hadoopLearn.mapreduce;

import com.tuan.hadoopLearn.mapreduce.MaxTemperatureMapper;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mrunit.mapreduce.MapDriver;
import org.junit.jupiter.api.Test;

import java.io.IOException;

public class MaxTemperatureTest {
    @Test
    public void mapperTest() {
        Text input = new Text("1993 38");
        try {
            new MapDriver<LongWritable, Text, Text, IntWritable>()
                    .withMapper(new MaxTemperatureMapper())
                    .withInput(new LongWritable(), input)
                    .withOutput(new Text("1993"), new IntWritable(38))
                    .runTest();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2 Reducer測試

在上面的類裡面再寫一個Reducer測試

    @Test
    public void reducerTest() {
        try {
            new ReduceDriver<Text, IntWritable, Text, IntWritable>()
                    .withReducer(new MaxTemperatureReducer())
                    .withInput(new Pair<>(new Text("1993"), Arrays.asList(new IntWritable(10), new IntWritable(5))))
                    .withOutput(new Text("1993"), new IntWritable(10))
                    .runTest();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

3 作業除錯

例如，在處理最高氣溫的程式中，插入計數器以檢測過大的異常輸入，在Mapper類中插入幾行程式碼，注意這裡書上有一行程式碼的括號有誤，我還奇怪列舉項怎麼increment

package com.tuan.hadoopLearn.mapreduce;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MaxTemperatureMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private static final int MISSING = 9999;

    enum Temperature {
        OVER_100
    }

    @Override
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] line = value.toString().split(" ");
        int temperature = Integer.parseInt(line[1]);
        if (temperature > 100) {
            context.setStatus("Detected possible corrupt input");
            context.getCounter(Temperature.OVER_100).increment(1);  //這裡書上有錯
        }
        context.write(new Text(line[0]), new IntWritable(temperature));
    }
}

把input.txt後面加一條“1992 520”的異常記錄，執行一下這個MapReduce程式，還是熟悉的命令

hadoop jar hadoopLearn-0.0.1-SNAPSHOT.jar com.tuan.hadoopLearn.mapreduce.MaxTemperature /mapreduce/input.txt /mapreduce/output

在作業結束後，可以看到定義的OVER_100計數器的計數值為2，證明有兩個超過了100的異常輸入

在web端檢視一下historyserver，從下圖這個紅框的地方點進去，到了task介面找到mapper繼續點

最後來到一個介面，可以看到Status已經變成了檢測到異常輸入

還可以檢視Counter

4 效能調優

用Java提供的Hprof工具獲取執行過程中的效能引數

重新寫一個MaxTemperatureDriver，比之前的MaxTemperature多了一些Hprof的配置語句。一開始我的profile.out檔案除了說明資訊其他都是空的，最後發現是"mapreduce.task.profile.params"寫成了"mapreduce.task,profile.params"，也是醉了

package com.tuan.hadoopLearn.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class MaxTemperatureDriver extends Configured implements Tool {
    @Override
    public int run(String[] strings) throws Exception {
        if (strings.length != 2) {
            System.err.printf("Usage: %s [generic options] <input> <output>\n", getClass().getSimpleName());
            ToolRunner.printGenericCommandUsage(System.err);
            return -1;
        }

        Configuration conf = getConf();
        conf.setBoolean("mapreduce.task.profile", true);  //啟用分析工具
        conf.set("mapreduce.task.profile.params", "-agentlib:hprof=cpu=samples,heap=sites,depth=6," +
                "force=n,thread=y,verbose=n,file=%s");  //JVM的分析引數配置
        conf.set("mapreduce.task.profile.maps", "0-2");  //分析的map任務id範圍
        conf.set("mapreduce.task.profile.reduces", "0-2");  //分析的reduce任務id範圍

        Job job = new Job(conf, "Max Temperature");
        job.setJarByClass(getClass());

        FileInputFormat.addInputPath(job, new Path(strings[0]));
        FileOutputFormat.setOutputPath(job, new Path(strings[1]));

        job.setMapperClass(MaxTemperatureMapper.class);
        job.setReducerClass(MaxTemperatureReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        return job.waitForCompletion(true) ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        System.exit(ToolRunner.run(new MaxTemperatureDriver(), args));
    }
}

用熟悉的語句執行

hadoop jar hadoopLearn-0.0.1-SNAPSHOT.jar com.tua
n.hadoopLearn.mapreduce.MaxTemperatureDriver /mapreduce/input.txt /mapreduce/output

進Web端，如下地方點選檢視profile.out檔案

然後選擇最下面的userlogs，點選自己的應用，層層目錄下最終找到profile.out檔案，檔案很長，最後一段是統計了每個方法呼叫比例

Kubernetes權威指南學習筆記（一）

資源利用率 date ace epo yaml policy 下一代標識 code https://blog.csdn.net/keysilence1/article/details/70239717 概念 Kubernetes是谷歌嚴格保密十幾年的秘密武器——Bo

js權威指南學習筆記（一）類型、值和變量

聲明 for black inf 筆記提升 under election 對象類型 1、數據類型：原始類型(primitive type) 和對象類型(object type) 原始類型包括數字、字符串和布爾值；除數字、字符串、布爾值、null（空）、undefined

Hive程式設計指南-學習筆記（三）資料操作

一、向管理表中裝載資料 Hive沒有行級別的資料插入、更新和刪除操作，往表中裝載資料的唯一途徑就是使用一種“大量”的資料裝載操作。 LOAD：向表中裝載資料（1）把目錄‘/usr/local/data’下的資料檔案中的資料裝載進usr表，並覆蓋原有資料：LOAD DA

《Hadoop權威指南》學習筆記（三）

本博文是我學習《Hadoop權威指南》第5章的筆記，主要是裡面範例程式的實現，部分實現有修改 1 Mapper測試需要使用mrunit這個jar包，在pom.xml新增dependency的時候，要新增classifier屬性不然下載不了jar包，根據自己hadoop-core的版本來確定

Hadoop權威指南學習筆記三

支持第三方 handle line src factory 模式多個重要 HDFS簡單介紹聲明：本文是本人基於Hadoop權威指南學習的一些個人理解和筆記，僅供學習參考。有什麽不到之處還望指出，一起學習一起進步。轉載請註明：http://blog.cs

hadoop學習筆記（三）：hdfs體系結構和讀寫流程（轉）

sim 百萬服務器發表繼續什麽 lose 基於一次原文：https://www.cnblogs.com/codeOfLife/p/5375120.html 目錄 HDFS 是做什麽的 HDFS 從何而來為什麽選擇 HDFS 存儲數據 HDFS

大資料Hadoop學習筆記（三）

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解源自谷歌的GFS論文 HDFS： *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上，提供容錯機制 *為

JAVA學習筆記（三）

byte repl efi ber 時間 clas 區分大小寫增強for size @SuppressWarnings("resource")是用來壓制資源泄露警告的。比如使用io類，最後沒有關閉。Set集合特點：1）無序，不隨機2）元素唯一3）沒下標註意：Collect

thinkphp5.0學習筆記（三）獲取信息,變量,綁定參數

名稱自動識別參數順序 query images 報錯 oca nds arc 1.構造函數：控制器類必須繼承了\think\Controller類，才能使用：方法_initialize 代碼： <?php namespace app\lian\control

最優化學習筆記（三）最速下降法

tex track enter water pos 最優 content 分享 clas 最優化學習筆記（三）最速下降法

python學習筆記（三）

list 內存寫入 odin move 列表付出 open ada 文件的操作一般分三步： 1、打開文件，獲取文件的指針（句柄） 2、通過指針（句柄）操作文件 3、關閉文件現在有以下文件：我們為愛還在學學溝通的語言

Redis學習筆記（三）常用命令整理

mes ember nbsp end 插入學習筆記頻道 hash value Redis 常用命令 1.DEL key 刪除key2.EXISTS key 檢查key是否存在3.KEYS * 查看所有的key4.EXPIRE key seconds 設置key的過期時

Django 學習筆記（三）模板導入

文件文件中訪問 from lang sts class rom 網頁本章內容是將一個html網頁放進模板中，並運行服務器將其展現出來。平臺：windows平臺下Liunx子系統目前的目錄： hello ├── manage.py ├── hello │ ├─

Git學習筆記（三）遠程庫（GitHub）協同開發，fork和忽略特殊文件

tex 情況 learn 多人版本管理獲得 logs 秘鑰多個遠程庫　　遠程庫,通俗的講就是不再本地的git倉庫！他的工作方式和我們本地的一樣，但是要使用他就需要先建立連接！　　遠程庫有兩種，一個是自己搭建的git服務器；另一種就是使用GitHub，這個網站就是

jQuery學習筆記（三）

對象 idt 命名空間 goto div hid 右鍵 func 切換 jQuery中的事件和動畫 jquery中的事件加載DOM 兩者等價但有細微區別 $(document).ready(function(){//編寫代碼}) 在DOM完全就緒時就可以被調用。

《EFFECTIVEC++》學習筆記（三）

ict lsp alq list dict baidu vsr .com 學習筆記 REDIS%E6%BA%90%E7%A0%81%E5%89%96%E6%9E%90-DICT%E9%81%8D%E5%8E%86%E7%AE%97%E6%B3%95 http://mp3.

學習筆記（三）——數據庫命令的應用

cal 名稱 nbsp ges bsp tex 密碼連接字符串集合學習筆記（三）——數據庫命令的應用一、存儲過程 (一)基本概念存儲過程就是固化SQL數據庫系統內部的SQL語句，這樣做的好處是可以提高執行效率，提高數據庫的安全性，減

Hibernate學習筆記（三） --- 映射枚舉類型

enume rto 希望 enum 類名賦值 rom cart org 對於枚舉類型，不能通過org.hibernate.annotations.Type註解來簡單的映射對應的數據庫字段類型（除非自定義類型）。對此，Hibernate提供了javax.persis

C#可擴展編程之MEF學習筆記（三）：導出類的方法和屬性（轉）

學習說了如何 mod ati dem ont num imp 前面說完了導入和導出的幾種方法，如果大家細心的話會註意到前面我們導出的都是類，那麽方法和屬性能不能導出呢？？？答案是肯定的，下面就來說下MEF是如何導出方法和屬性的。　　還是前面的代碼，第二篇中已經提供了下

【轉載】.NET Remoting學習筆記（三）信道

star fig cati 服務端 pro net string spa 處理類型目錄 .NET Remoting學習筆記（一）概念 .NET Remoting學習筆記（二）激活方式 .NET Remoting學習筆記（三）信道參考：♂風車車.Net .NET Fra

《Hadoop權威指南》學習筆記（三）

1 Mapper測試

2 Reducer測試

3 作業除錯

4 效能調優

相關推薦