一個簡單的MapReduce示例（多個MapReduce任務處理）

阿新 • • 發佈：2017-05-27

.lib exceptio apr private util sum length reat lin

一、需求

　　有一個列表，只有兩列：id、pro，記錄了id與pro的對應關系，但是在同一個id下，pro有可能是重復的。

　　現在需要寫一個程序，統計一下每個id下有多少個不重復的pro。

　　為了寫一個完整的示例，我使用了多job!

二、文件目錄

|- OutCount    //單Job的，本次試驗沒有使用到，這裏寫出來供參考
|- OutCount2
|- OutCountMapper
|- OutCountMapper2
|- OutCountReduce
|- OutCountReduce2

三、樣本數據（部分）

2,10000088379
9,10000088379
6,10000088379
1,10000088379
8,10000088379
0,10000088379
1,10000088379
4,10000091621
3,10000091621
2,10000091621
0,10000091621
6,10000091621
2,10000091621
0,10000091621
0,10000091621
9,10000091621
2,10000091621

四、Java代碼

1、OutCountMapper.java

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * created by wangjunfu on 2017-05-25.
 * 4個泛型中，前兩個是指定mapper輸入數據的類型，KEYIN是輸入的key的類型，VALUEIN是輸入的value的類型
 * map 和 reduce 的數據輸入輸出都是以 key-value對的形式封裝的
 * 默認情況下，Map框架傳遞給我們的mapper的輸入數據中，key是要處理的文本中一行的起始偏移量（選用LongWritable），value是這一行的內容（VALUEIN選用Text）
 * 在wordcount中，經過mapper處理數據後，得到的是<單詞，1>這樣的結果，所以KEYOUT選用Text，VAULEOUT選用IntWritable
  
*/
public class OutCountMapper extends Mapper<LongWritable, Text, Text, Text> {
    // MapReduce框架每讀一行數據就調用一次map方法
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 數據格式：uid skuid
        String oneline = value.toString().replace(‘,‘, ‘_‘).trim();

         
// 去重思路：Map的key具有數據去重的功能，以整個數據作為key發送出去, value為null
        context.write(new Text(oneline), new Text(""));

        /*
        // 這裏需要說明一下，我們現在的樣本是標準的，一行一個樣本。
        // 有的情況下一行多個，那就需要進行分割。
        // 對這一行的文本按特定分隔符切分
        String[] words = oneline.split("\t");
        for (String word : words) {
            // 遍歷這個單詞數組,輸出為key-value形式 key：單詞 value ： 1
            context.write(new Text(word), new IntWritable(1));
        }
        */
    }
}

2、OutCountReduce.java

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * created by wangjunfu on 2017-05-25.
 * 經過mapper處理後的數據會被reducer拉取過來，所以reducer的KEYIN、VALUEIN和mapper的KEYOUT、VALUEOUT一致
 * 經過reducer處理後的數據格式為<單詞，頻數>,所以KEYOUT為Text，VALUEOUT為IntWritable
 */
public class OutCountReduce extends Reducer<Text, Text, Text, Text> {
    // 當mapper框架將相同的key的數據處理完成後，reducer框架會將mapper框架輸出的數據<key,value>變成<key,values{}>。
    // 例如，在wordcount中會將mapper框架輸出的所有<hello,1>變為<hello,{1,1,1...}>，即這裏的<k2，v2s>，然後將<k2，v2s>作為reduce函數的輸入
    // 這個將在下面reduce2 中得到體現
    public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        context.write(key, new Text(""));
    }
}

3、OutCountMapper2.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * created by wangjunfu on 2017-05-27.
 * 將原始數據作為map輸出的key設置為int類型。map會自動的根據key進行排序
 */
public class OutCountMapper2 extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 數據格式：uid_skuid
        String oneline = value.toString();

        // 將這條數據中的uid 發出去, value為計算one
        context.write(new Text(oneline.split("_")[0]), one);
    }
}

4、OutCountReduce2.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.Iterator;

/**
 * created by wangjunfu on 2017-05-27.
 * 按統計數排序：將values作為次序key，將map排序好的key作為value輸出
 */
public class OutCountReduce2 extends Reducer<Text, IntWritable, Text, IntWritable> {
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;

        // 叠代器，訪問容器中的元素，為容器而生
        Iterator<IntWritable> itr = values.iterator();
        while (itr.hasNext()) {
            sum += itr.next().get();
        }

        /*
        // 這種遍歷也可以
        // 遍歷v2的list，進行累加求和
        for (IntWritable v2 : itr) {
            sum = v2.get();
        }
        */

        // 按統計數排序：將values作為次序key，將map排序好的key作為value輸出
        //context.write(new IntWritable(sum), key);     //需要再起一個 map-reduce
        context.write(key, new IntWritable(sum));
    }
}

5、OutCount2.java

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;
import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 需求：給定一個列表uid skuid，求出uid下不重復的skuid數據；然後再按統計大小排序。
 * 涉及到多job 處理。
 * created by wangjunfu on 2017-05-27.
 */
public class OutCount2 {
    public static void main(String[] args) throws Exception {
        JobConf conf = new JobConf(OutCount.class);

        //第一個job的配置
        Job job1 = new Job(conf, "Join1");
        job1.setJarByClass(OutCount.class);

        job1.setMapperClass(OutCountMapper.class);
        job1.setReducerClass(OutCountReduce.class);

        job1.setMapOutputKeyClass(Text.class);          //map階段的輸出的key
        job1.setMapOutputValueClass(Text.class); //map階段的輸出的value

        job1.setOutputKeyClass(Text.class);             //reduce階段的輸出的key
        job1.setOutputValueClass(Text.class);    //reduce階段的輸出的value

        //job-1 加入控制容器
        ControlledJob ctrljob1 = new ControlledJob(conf);
        ctrljob1.setJob(job1);

        //job-1 的輸入輸出文件路徑
        FileInputFormat.addInputPath(job1, new Path(args[0]));
        FileOutputFormat.setOutputPath(job1, new Path(args[1]));

        //第二個job的配置
        Job job2 = new Job(conf, "Join2");
        job2.setJarByClass(OutCount.class);             // 設置job所在的類在哪個jar包

        job2.setMapperClass(OutCountMapper2.class);     // 指定job所用的mappe類
        job2.setReducerClass(OutCountReduce2.class);    // 指定job所用的reducer類

        // 指定mapper輸出類型和reducer輸出類型
        // 由於在wordcount中mapper和reducer的輸出類型一致，
        // 所以使用setOutputKeyClass和setOutputValueClass方法可以同時設定mapper和reducer的輸出類型
        // 如果mapper和reducer的輸出類型不一致時，可以使用setMapOutputKeyClass和setMapOutputValueClass單獨設置mapper的輸出類型
        job2.setMapOutputKeyClass(Text.class);          //map階段的輸出的key
        job2.setMapOutputValueClass(IntWritable.class); //map階段的輸出的value

        job2.setOutputKeyClass(Text.class);             //reduce階段的輸出的key
        job2.setOutputValueClass(IntWritable.class);    //reduce階段的輸出的value

        //job-2 加入控制容器
        ControlledJob ctrljob2 = new ControlledJob(conf);
        ctrljob2.setJob(job2);

        //設置多個作業直接的依賴關系
        //job-2 的啟動，依賴於job-1作業的完成
        ctrljob2.addDependingJob(ctrljob1);

        //輸入路徑是上一個作業的輸出路徑，因此這裏填args[1],要和上面對應好
        FileInputFormat.addInputPath(job2, new Path(args[1]));

        //輸出路徑從新傳入一個參數，這裏需要註意，因為我們最後的輸出文件一定要是沒有出現過得
        //因此我們在這裏new Path(args[2])因為args[2]在上面沒有用過，只要和上面不同就可以了
        FileOutputFormat.setOutputPath(job2, new Path(args[2]));

        //主的控制容器，控制上面的總的兩個子作業
        JobControl jobCtrl = new JobControl("myOutCount");

        //添加到總的JobControl裏，進行控制
        jobCtrl.addJob(ctrljob1);
        jobCtrl.addJob(ctrljob2);

        //在線程啟動，記住一定要有這個
        Thread t = new Thread(jobCtrl);
        t.start();

        while (true) {
            if (jobCtrl.allFinished()) {
                //如果作業成功完成，就打印成功作業的信息
                System.out.println(jobCtrl.getSuccessfulJobList());
                jobCtrl.stop();
                break;
            }
        }
    }
}

6、OutCount.java

單Job的，本次試驗沒有使用到，這裏寫出來供參考

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.util.GenericOptionsParser;

/**
 * 需求：給定一個列表uid skuid，求出uid下不重復的skuid數據；然後再按統計大小排序。
 * 涉及到多job 處理。
 * created by wangjunfu on 2017-05-25.
 */
public class OutCount {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();       //指定作業執行規範
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length != 2) {
            System.err.println("Usage:wordcount <in> <out>");
            System.exit(2);
        }

        Job job = new Job(conf, "word count");  //指定job名稱，及運行對象
        job.setJarByClass(OutCount.class);
        job.setMapperClass(OutCountMapper.class);       //指定map函數
        job.setCombinerClass(OutCountReduce.class);     //是否需要conbiner整合
        job.setReducerClass(OutCountReduce.class);      //指定reduce函數
        job.setOutputKeyClass(Text.class);              //輸出key格式
        job.setOutputValueClass(IntWritable.class);     //輸出value格式
        org.apache.hadoop.mapreduce.lib.input.FileInputFormat.addInputPath(job, new Path(otherArgs[0]));       //處理文件路徑
        org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));    //結果輸出路徑
        // 將job提交給集群運行
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

五、結果

一個簡單的MapReduce示例（多個MapReduce任務處理）

.lib exceptio apr private util sum length reat lin 一、需求　　有一個列表，只有兩列：id、pro，記錄了id與pro的對應關系，但是在同一個id下，pro有可能是重復的。　　現在需要寫一個程序，統計一下每個id下有

Hadoop 裡MapReduce裡實現多個job任務包含（迭代式、依賴式、鏈式）

一、迭代式，所謂的迭代式，下一個執行的Job任務以上一個Job的輸出作為輸入，最終得到想要的結果。這裡我只寫關鍵的程式碼了 Job job = new Job(new Configuration(),“test”); JobConf jobConf=(JobCon

C語言字符二維數組（多個字符串）探討求解

字符數沒有一個 spa style 字符串類 hello world c語言字符什麽是二維字符數組？二維字符數組中為什麽定義字符串是一行一個？ “hello world”在C語言中代表什麽？ C語言沒有字符串類型？ C語言字符二維數組（多個字符串）探討求解

時間序列（多個變數+一步）

''' PART 1:多個x時間變數用於預測y的時間但是y不作為x的一份子 ''' # 創造資料 from numpy import array from numpy import hstack from keras.models import Sequential from keras.laye

學以致用——Java原始碼——命令列引數的用法示例（任意個數字連乘）（Command-Line Arguments）

參考文章： 1. 命令列中執行帶引數的java程式（Command-Line Arguments），https://blog.csdn.net/hpdlzu80100/article/details/51851440 2. 學以致用——Java原始碼——使

Android 6.0+ 動態許可權一種清爽的封裝過程（以及多個許可權的處理）

Android 6.0 之前我們申請許可權直接在配置檔案中配置一下即可，但是6.0之後，谷歌官方將許可權分為普通許可權和危險許可權。對於危險許可權來說，我們就需要進行動態設定了。本文主要講解為什麼要進行Android 6.0 動態許可權的設定、動態許可權的使用、

pyenv和virtualenv管理python的版本（多個版本同時用）

雜項 http pip git gin 創建再次是你 note 1、homebrew安裝: https://brew.sh/index_zh-cn 2、pyenv安裝使用： https://blog.csdn.net/m0_37998140/article/deta

基於qt的一個簡單的shell（能夠接收shell返回值）

#include <QProcess> //方法一：直接執行shell命令 //關機 void MainWindow::Shutdown() { QProcess::execute(

訪問通訊錄並返回號碼（多個號碼可以選擇）

Intent i = new Intent(Intent.ACTION_PICK, android.provider.ContactsContract.Contacts.CONTENT_URI); startActivityForResult(i, 1);@Overrid

Hadoop: MapReduce2多個job序列處理複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一

複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一定依賴關係。以上一篇中的求平均數為例，可以分解成三個步驟： 1. 求Sum 2. 求Count 3. 計算平均數每1個步驟看成一個Job，其中Job3必須等待Job

把多個Excel文件合並到一個Excel文件的多個工作表（Sheet）裏

ger xlsx eww 右擊對話如果 work excel 對話框實現的功能是把多個Excel文件的第一個工作表（Sheet）合並到一個Excel文件的多個工作表裏，並且新工作表的名稱等於原Excel文件的文件名。開發環境Excel2007，但是Excel

elasticsearch 6.0.0及之後移除了一個索引允許映射多個類型的操作（Removal of mapping types）

user 版本解決 ase asc adding course 新的 blog 用到了6.2，還以為像5.X 一樣允許建立父-子關系文檔，即一個索引下允許映射多個類型，操作後發現行不通如下代碼： PUT /company { "mappings": {

MyBatis學習筆記（1）---一個簡單MyBatis示例

利用JDBC仍舊存在的幾個侷限性：在應用程式中存在的大量程式碼冗餘。業務程式碼與資料庫訪問程式碼混雜在一起。 SQL語句與Java程式碼混雜在一起。 JDBC丟擲費力難懂的checked異常，需要程式設計師花費精力小心處理。需要程式設計師自行解決ORM

在Linux系統配置Nodejs環境的最簡單步驟，部署多個thinkjs（nodejs）專案

發現一臺伺服器部署管理多個nodejs服務，可以採用二級域名weekly.mwcxs.top，也可以採用固定字尾www.mwcxs.top/weekly的方式，本文先從固定字尾的方式部署管理多個nodejs服務。 1、去官網下載和自己系統匹配的檔案：建議去英文網站下載，因為中文這邊沒有

xpath 提取一個屬性中含有的多個屬性值，contains（）

xpath如何取包含多個class屬性如果HTML結構是這樣 <div class="demo"></div> 那麼我知道可以寫xpath //div[@class="demo"]，但是如果我的html是 <div

MapReduce案例9——多個數字檔案的資料排序並新增序號(新增可並行方法）

題目：數字排序並加序號源資料： 2 32 654 32 15 756 65223 5956 22 650 92 26 54 6 最張結果： 1 2 2 6 3 15 4 22 5 26 6 32 7 32 8 54 9 92 10 650 11 654

oracle將一個欄位拆分成多個值（regexp_substr函式）

例： select regexp_substr(p.attributename, '[^,]+',1,level) c1 from tablename p connect by level &l

oracle 更新欄位，更新非空欄位（null、‘’、一個或多個空格的情況）

UPDATE LOA_FUND_HOLD_DTL SET TRANS_STATUS = '2', AND FAIL_INFO = NVL(TRIM(' ' from rec.FAIL_INFO),'主機對賬失敗。'), A

MyBatis學習筆記（一）---一個簡單MyBatis示例

public class Test { private static SqlSessionFactory sqlSessionFactory= MyBatisUtil.getSqlSessionFactory(); public static void main(String args[]

C 判斷 —— switch語句（多個switch值與一組語句聯絡起來、case順序是可任意的,default不一定是最後一個case）

一個 switch 語句允許測試一個變數等於多個值時的情況。每個值稱為一個 case，且被測試的變數會對每個 switch case 進行檢查。流程圖 //下面的語句是由使用者輸入的char變

一個簡單的MapReduce示例（多個MapReduce任務處理）

相關推薦