MapReduce程式設計之Combiner

阿新 • • 發佈：2018-12-13

Combiner 可以理解為本地的reducer,減少了Map Tasks輸出的資料量以及資料網路傳輸量在這裡插入圖片描述

編譯執行： hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar MapReduce.CombinerApp hdfs://zq:8020/hello.txt hdfs://zq:8020/output/wc 和前一篇部落格的程式碼是差不多的，只是多出這句核心程式碼：

 //通過job設定combiner處理類，其實邏輯上和我們的reduce是一模一樣的
        job.setCombinerClass(MyReducer.class);

詳細程式碼如下 CombinerApp.java

package MapReduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * 使用MapReduce開發WordCount應用程式
 */
public class CombinerApp {

    /**
     * Map：讀取輸入的檔案
     */
    public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

        LongWritable one = new LongWritable(1);

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            // 接收到的每一行資料
            String line = value.toString();

            //按照指定分隔符進行拆分
            String[] words = line.split(" ");

            for(String word :  words) {
                // 通過上下文把map的處理結果輸出
                context.write(new Text(word), one);
            }

        }
    }

    /**
     * Reduce：歸併操作
     */
    public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

        @Override
        protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {

            long sum = 0;
            for(LongWritable value : values) {
                // 求key出現的次數總和
                sum += value.get();
            }

            // 最終統計結果的輸出
            context.write(key, new LongWritable(sum));
        }
    }

    /**
     * 定義Driver：封裝了MapReduce作業的所有資訊
     */
    public static void main(String[] args) throws Exception{

        //建立Configuration
        Configuration configuration = new Configuration();

        // 準備清理已存在的輸出目錄
        Path outputPath = new Path(args[1]);
        FileSystem fileSystem = FileSystem.get(configuration);
        if(fileSystem.exists(outputPath)){
            fileSystem.delete(outputPath, true);
            System.out.println("output file exists, but is has deleted");
        }

        //建立Job
        Job job = Job.getInstance(configuration, "wordcount");

        //設定job的處理類
        job.setJarByClass(CombinerApp.class);

        //設定作業處理的輸入路徑
        FileInputFormat.setInputPaths(job, new Path(args[0]));

        //設定map相關引數
        job.setMapperClass(MyMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        //設定reduce相關引數
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        //通過job設定combiner處理類，其實邏輯上和我們的reduce是一模一樣的
        job.setCombinerClass(MyReducer.class);

        //設定作業處理的輸出路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

注意：使用場景：求和、次數(區域性相加起來就是總和)等是適用的求平均數(區域性平均數的平均數不是總體平均數)不適用

MapReduce程式設計之Combiner

Combiner 可以理解為本地的reducer,減少了Map Tasks輸出的資料量以及資料網路傳輸量編譯執行： hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar MapReduce.CombinerAp

MapReduce程序之combiner規約

大數據 Hadoop MapReduce Combiner Java [toc] MapReduce程序之combiner規約前言前面的wordcount程序，shuffle階段的數據都是<hello, [1, 1, 1]>這種類型的（可以查看程序的輸出）

MapReduce程式設計之倒排索引

任務要求： //輸入檔案格式 18661629496 110 13107702446 110 1234567 120 2345678 120 987654 110 2897839274 18661629496 //輸出檔

MapReduce程式設計之Join多種應用場景與使用

這裡主要分析一下reduce join的一些不足。之所以會存在reduce join這種方式，是因為整體資料被分割了，每個map task只處理一部分資料而不能夠獲取到所有需要的join欄位，因此我們可以充分利用mapreduce框架的特性，讓他按照join key進行分割槽，將所有join key相同的記錄

MapReduce系列之Mapper、Combiner和Reducer

Mapper類 MapReduce的Mapper類中共有四個父類的方法：setup()、map()、run()、cleanup() setup()方法：在一個任務中，此方法只在開始執行一次，適用於對相關變數和資源的初始化操作。 map()方法：任務實現的主要過程在此方法中執行，

大資料技術學習筆記之Hadoop框架基礎2-MapReduce程式設計及執行流程

一、回顧 -》hadoop的功能？ -》海量資料儲存和海量計算問題 -》分散式檔案儲存框架hdfs和

大資料之Hadoop學習——動手實戰學習MapReduce程式設計例項

文章目錄一、MapReduce程式設計例項 1.自定義物件序列化需求分析報錯：Exception in thread "main" java.lang.IllegalArgumentExcept

hbase資料匯入hdfs中之（使用MapReduce程式設計統計hbase庫中的mingxing表中男女數量）

資料 zhangfenglun,M,20,13522334455,[email protected],23521472 chenfei,M,20,13684634455,[email protected],84545472 liyuchen,M,20,1352233425

mapreduce之combiner函式

一個例子說明combiner的作用：hadoop允許使用者針對map任務輸出指定一個combiner，combiner函式的輸出作為reduce的輸入（1）假設第一個map的輸出如下：（1950，0）//1950表示年份，0表示地方A的最高溫度（1950，20）（1950，10）

MapReduce程式設計例項之WordCount

1.MapReduce計算框架 2.例項WordCount package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokeni

Hadoop之MapReduce程式設計模型

一、MapReduce程式設計模型 MapReduce將作業的整個執行過程分為兩個階段：Map階段和Reduce階段 Map階段由一定數量的Map Task組成輸入資料格式解析：InputFormat

Mapreduce程式設計1之WordCount

Mapreduce是hadoop的計算框架，對資料的處理操作都要在這裡程式設計來實現功能。這是我學習的第一個程式，也算是入門程式，相當於其他語言的helloworld，雖然還有很多不懂的地方，但相信通過以後的學習能夠懂更多東西。 WordCount 實現

hadoop之mapreduce程式設計例項（系統日誌初步清洗過濾處理）

剛剛開始接觸hadoop的時候，總覺得必須要先安裝hadoop叢集才能開始學習MR程式設計，其實並不用這樣，當然如果你有條件有機器那最好是自己安裝配置一個hadoop叢集，這樣你會更容易理解其工作原理。我們今天就是要給大家演示如何不用安裝hadoop直接除錯程式設計MapR

MapReduce程序之求一年中的最高溫度和最低溫度

大數據 Hadoop MapReduce Java [TOC] MapReduce程序之求一年中的最高溫度和最低溫度前言看過《Hadoop權威指南》的同學都知道，關於MapReduce的第一個入門的例子就是統計全球氣溫，書上的例子是使用了全部的數據來作為統計，但實際上只需要拿某一年的數據

MapReduce程序之序列化原理與Writable案例

大數據 Hadoop MapReduce Java [TOC] MapReduce程序之序列化原理與Writable案例前言在編寫MapReduce程序時，我們會發現，對於MapReduce的輸入輸出數據（key-value），我們只能使用Hadoop提供的數據類型，而不能使用Java本

MapReduce程序之數據去重

大數據 Hadoop MapReduce Java [toc] MapReduce程序之數據去重需求有下面兩個文件： yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/duplication$ cat file1.txt 2012-3-1 a 2

MapReduce程序之數據排序

大數據 Hadoop MapReduce Java [toc] MapReduce程序之數據排序需求下面有三個文件： yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/sort$ cat file1.csv 2 32 654 32 15 756

MapReduce程序之二次排序與多次排序

大數據 Hadoop MapReduce Java [toc] MapReduce程序之二次排序與多次排序需求有下面的數據： cookieId time url 2 12:12:34 2_hao123 3 09:10:34 3_baidu 1 15:0

MapReduce程序之TopN問題（排行榜問題）

大數據 Hadoop MapReduce Java [toc] MapReduce程序之TopN問題（排行榜問題）需求有下面的文本文件： yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/topn$ cat senventeen_a.txt 1,

MapReduce解析之Map，Context，Reduce

HR 中文明顯 tar 框架 andro 開發 ref session 要理解MapReduce，就必須理解其框架結構，把這三者放在一起講是為了便於大家理解。也就是兩大組件Map與Reduce 首先看看Map （聲明：這裏感謝Pig2的文章，對我啟發很大，也順便引用一下

MapReduce程式設計之Combiner

相關推薦