Combiner+GroupingComparator+shuffle原理+Reduce原理

阿新 • • 發佈：2020-08-24

1、Combiner

Combiner的輸入輸出物件必須一樣。

2、GroupingComparator

執行程式碼：

map

package groupcompartor;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;


import java.io.IOException;

public class OrderMapper extends Mapper<LongWritable, Text,OrderBean, NullWritable> {

    private OrderBean orderbean=new OrderBean();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] fieds=value.toString().split("\t");
        orderbean.setOrderId(fieds[0]);
        orderbean.setProductId(fieds[1]);
        orderbean.setPrice(Double.parseDouble(fieds[2]));
        context.write(orderbean,NullWritable.get());
    }
}

　　reduce

package groupcompartor;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class OrderReducer extends Reducer<OrderBean, NullWritable,OrderBean, NullWritable> {

    @Override
    protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        context.write(key,NullWritable.get());
    }
}

　　driver

package groupcompartor;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.logging.log4j.core.config.OrderComparator;

import java.io.IOException;

public class OrderDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(OrderDriver.class);
        job. setMapperClass(OrderMapper.class);
        job.setReducerClass(OrderReducer.class);
        job.setMapOutputKeyClass(OrderBean.class);
        job.setMapOutputValueClass(NullWritable.class);
        job.setOutputKeyClass(OrderBean.class);
        job.setGroupingComparatorClass(OderCompartor.class);
        job.setOutputValueClass(NullWritable.class);
        FileInputFormat.setInputPaths(job,new Path("d:\\linput"));
        FileOutputFormat.setOutputPath(job,new Path("d:\\loutput"));
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

　　comparator

package groupcompartor;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class OderCompartor extends WritableComparator {
    protected OderCompartor() {
        super(OrderBean.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        OrderBean oa=(OrderBean)a;
        OrderBean ob=(OrderBean)b;
        return oa.getOrderId().compareTo(ob.getOrderId());
    }
}

原本結果：

預期結果：

3.3.10GroupingComparator分組案例實操

1．需求

有如下訂單資料

表4-2 訂單資料

訂單id	商品id	成交金額
0000001	Pdt_01	222.8
0000001	Pdt_02	33.8
0000002	Pdt_03	522.8
	Pdt_04	122.4
	Pdt_05	722.4
0000003	Pdt_06	232.8
0000003	Pdt_02	33.8

現在需要求出每一個訂單中最貴的商品。

（1）輸入資料

（2）期望輸出資料

1 222.8

2 722.4

3 232.8

3、shuffle原理

Combiner+GroupingComparator+shuffle原理+Reduce原理

1、Combiner Combiner的輸入輸出物件必須一樣。 2、GroupingComparator 執行程式碼： map package groupcompartor;

Spark Shuffle的基本原理分析

這篇主要根據官網對Shuffle的介紹做了梳理和分析，並參考下面資料中的部分內容加以理解，對英文官網上的每一句話應該細細體味，目前的能力還有欠缺，以後慢慢補。

map reduce原理

shuffle是連線Map和Reduce之間的橋樑，Map的輸出要用到Reduce中必須經過shuffle這個環節，shuffle的效能高低直接影響了整個程式的效能和吞吐量。

【北京迅為】i.MX6ULL終結者定時器按鍵原理及原理分析

文章目錄 1定時器按鍵原理2 原理分析 1定時器按鍵原理按鍵消除抖動的原理在前面章節已經介紹了，其實就是按鍵按下以後延時一段時間在去讀按鍵的狀態，如果此時按鍵還是按下的狀態，就說明這是一次有效

【北京迅為】i.MX6ULL終結者GPT定時器延時原理及原理分析

文章目錄 1 GPT定時器延時原理2 原理分析 1 GPT定時器延時原理我們在上一章節介紹了GPT定時器的結構框架，首先時鐘源我們可以從五路里面選取任意一路，在我們本例程中，我們選擇的是ipg_clk，該時鐘的

JS陣列reduce()方法原理及使用技巧解析

1、語法 arr.reduce(callback,[initialValue]) reduce 為陣列中的每一個元素依次執行回撥函式，不包括陣列中被刪除或從未被賦值的元素，接受四個引數：初始值（或者上一次回撥函式的返回值），當前元素值，當前索引

MapReduce框架原理--Shuffle機制

Shuffle機制 Mapreduce確保每個reducer的輸入都是按鍵排序的。系統執行排序的過程（Map方法之後，Reduce方法之前的資料處理過程）稱之為Shuffle。

MapReduce04 框架原理Shuffle

目錄2 MapReduce工作流程3 Shuffle機制(重點)3.1 Shuffle機制3.2 Partition分割槽預設Partitioner分割槽自定義Partitioner分割槽自定義Partition分割槽案例需求需求分析案例實現輸出結果總結3.3 WritableComparable

03_MapReduce框架原理_3.6 Shuffle機制(原始碼)

Hadoop body { margin: 0 } #content-info { width: auto; margin: 0 auto; text-align: center } #author-info { white-space: nowrap; text-overflow: ellipsis; overflow: hidden }