大資料-Hadoop生態(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分組

阿新 • • 發佈：2018-12-12

1.排序概述

2.排序分類

3.WritableComparable案例

這個檔案,是大資料-Hadoop生態(12)-Hadoop序列化和原始碼追蹤的輸出檔案,可以看到,檔案根據key,也就是手機號進行了字典排序

13470253144    180    180    360
13509468723    7335    110349    117684
13560439638    918    4938    5856
13568436656    3597    25635    29232
13590439668    1116    954    2070
13630577991    6960    690    7650
13682846555    1938    2910    4848
13729199489    240    0    240
13736230513    2481    24681    27162
13768778790    120    120    240
13846544121    264    0    264
13956435636    132    1512    1644
13966251146    240    0    240
13975057813    11058    48243    59301
13992314666    3008    3720    6728
15043685818    3659    3538    7197
15910133277    3156    2936    6092
15959002129    1938    180    2118
18271575951    1527    2106    3633
18390173782    9531    2412    11943
84188413    4116    1432    5548

欄位含義分別為手機號,上行流量,下行流量,總流量

需求是根據總流量進行排序

Bean物件,需要實現序列化,反序列化和Comparable介面

package com.nty.writableComparable;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 16:33
  
*/

/**
 * 實現WritableComparable介面
 * 原先將bean序列化時,需要實現Writable介面,現在再實現Comparable介面
 * 
 * public interface WritableComparable<T> extends Writable, Comparable<T>
 * 
 * 所以我們可以實現Writable和Comparable兩個介面,也可以實現WritableComparable介面
 */
public class Flow implements WritableComparable<Flow> {

   
private long upflow;
  private long downflow;
  private long total;

    public long getUpflow() {
        return upflow;
    }

    public void setUpflow(long upflow) {
        this.upflow = upflow;
    }

    public long getDownflow() {
        return downflow;
    }

    public void setDownflow(long downflow) {
        this.downflow = downflow;
    }

    public long getTotal() {
        return total;
    }

    public void setTotal(long total) {
        this.total = total;
    }

    //快速賦值
    public void setFlow(long upflow, long downflow){
        this.upflow = upflow;
        this.downflow = downflow;
        this.total = upflow + downflow;
    }

    @Override
    public String toString() {
        return upflow + "\t" + downflow + "\t" + total;
    }

    //重寫compareTo方法
    @Override
    public int compareTo(Flow o) {
        return Long.compare(o.total, this.total);
    }

    //序列化方法
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeLong(upflow);
        out.writeLong(downflow);
        out.writeLong(total);
    }

    //反序列化方法
    @Override
    public void readFields(DataInput in) throws IOException {
        upflow = in.readLong();
        downflow = in.readLong();
        total = in.readLong();
    }
}

Mapper類

package com.nty.writableComparable;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 16:47
 */
public class FlowMapper extends Mapper<LongWritable, Text, Flow, Text> {

    private Text phone = new Text();

    private Flow flow = new Flow();


    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //13470253144    180    180    360
        //分割行資料
        String[] flieds = value.toString().split("\t");

        //賦值
        phone.set(flieds[0]);

        flow.setFlow(Long.parseLong(flieds[1]), Long.parseLong(flieds[2]));

        //寫出
        context.write(flow, phone);
    }
}

Reducer類

package com.nty.writableComparable;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 16:47
 */
//注意一下輸出型別
public class FlowReducer extends Reducer<Flow, Text, Text, Flow> {

    @Override
    protected void reduce(Flow key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        for (Text value : values) {
            //輸出
            context.write(value,key);
        }
    }
}

Driver類

package com.nty.writableComparable;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * author nty
 * date time 2018-12-12 16:47
 */
public class FlowDriver {

    public static void main(String[] args) throws  Exception {
        //1. 獲取Job例項
        Configuration configuration = new Configuration();
        Job instance = Job.getInstance(configuration);

        //2. 設定類路徑
        instance.setJarByClass(FlowDriver.class);


        //3. 設定Mapper和Reducer
        instance.setMapperClass(FlowMapper.class);
        instance.setReducerClass(FlowReducer.class);

        //4. 設定輸出型別
        instance.setMapOutputKeyClass(Flow.class);
        instance.setMapOutputValueClass(Text.class);

        instance.setOutputKeyClass(Text.class);
        instance.setOutputValueClass(Flow.class);

        //5. 設定輸入輸出路徑
        FileInputFormat.setInputPaths(instance, new Path("d:\\Hadoop_test"));
        FileOutputFormat.setOutputPath(instance, new Path("d:\\Hadoop_test_out"));

        //6. 提交
        boolean b = instance.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

結果

4.GroupingComparator案例

訂單id 商品id 商品金額

0000001    Pdt_01    222.8
0000002    Pdt_05    722.4
0000001    Pdt_02    33.8
0000003    Pdt_06    232.8
0000003    Pdt_02    33.8
0000002    Pdt_03    522.8
0000002    Pdt_04    122.4

求出每一個訂單中最貴的商品

需求分析:

1) 將訂單id和商品金額作為key,在Map階段先用訂單id升序排序,如果訂單id相同,再用商品金額降序排序

2) 在Reduce階段,用groupingComparator按照訂單分組,每一組的第一個即是最貴的商品

先定義bean物件,重寫序列化反序列話排序方法

package com.nty.groupingComparator;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 18:07
 */
public class Order implements WritableComparable<Order> {

    private String orderId;

    private String productId;

    private double price;

    public String getOrderId() {
        return orderId;
    }

    public Order setOrderId(String orderId) {
        this.orderId = orderId;
        return this;
    }

    public String getProductId() {
        return productId;
    }

    public Order setProductId(String productId) {
        this.productId = productId;
        return this;
    }

    public double getPrice() {
        return price;
    }

    public Order setPrice(double price) {
        this.price = price;
        return this;
    }

    @Override
    public String toString() {
        return orderId + "\t" + productId + "\t" + price;
    }


    @Override
    public int compareTo(Order o) {
        //先按照訂單排序,正序
        int compare = this.orderId.compareTo(o.getOrderId());
        if(0 == compare){
            //訂單相同,再比較價格,倒序
            return Double.compare( o.getPrice(),this.price);
        }
        return compare;
    }

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(orderId);
        out.writeUTF(productId);
        out.writeDouble(price);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        this.orderId = in.readUTF();
        this.productId = in.readUTF();
        this.price = in.readDouble();
    }
}

Mapper類

package com.nty.groupingComparator;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 18:07
 */
public class OrderMapper extends Mapper<LongWritable, Text, Order, NullWritable> {

    private Order order = new Order();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //0000001    Pdt_01    222.8
        //分割行資料
        String[] fields = value.toString().split("\t");

        //為order賦值
        order.setOrderId(fields[0]).setProductId(fields[1]).setPrice(Double.parseDouble(fields[2]));

        //寫出
        context.write(order,NullWritable.get());
    }
}

GroupingComparator類

package com.nty.groupingComparator;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/**
 * author nty
 * date time 2018-12-12 18:08
 */
public class OrderGroupingComparator extends WritableComparator {

    //用作比較的物件的具體型別
    public OrderGroupingComparator() {
        super(Order.class,true);
    }

    //重寫的方法要選對哦,一共有三個,選擇引數為WritableComparable的方法
    //預設的compare方法呼叫的是a,b物件的compare方法,但是現在我們排序和分組的規則不一致,所以要重寫分組規則
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        Order oa = (Order) a;
        Order ob = (Order) b;
        //按照訂單id分組
        return oa.getOrderId().compareTo(ob.getOrderId());
    }
}

Reducer類

package com.nty.groupingComparator;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 18:07
 */
public class OrderReducer extends Reducer<Order, NullWritable,Order, NullWritable> {

    @Override
    protected void reduce(Order key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        //每一組的第一個即是最高價商品,不需要遍歷
        context.write(key, NullWritable.get());
    }
}

Driver類

package com.nty.groupingComparator;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * author nty
 * date time 2018-12-12 18:07
 */
public class OrderDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //1獲取例項
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);

        //2設定類路徑
        job.setJarByClass(OrderDriver.class);

        //3.設定Mapper和Reducer
        job.setMapperClass(OrderMapper.class);
        job.setReducerClass(OrderReducer.class);

        //4.設定自定義分組類
        job.setGroupingComparatorClass(OrderGroupingComparator.class);

        //5. 設定輸出型別
        job.setMapOutputKeyClass(Order.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Order.class);
        job.setOutputValueClass(NullWritable.class);

        //6. 設定輸入輸出路徑
        FileInputFormat.setInputPaths(job, new Path("d:\\Hadoop_test"));
        FileOutputFormat.setOutputPath(job, new Path("d:\\Hadoop_test_out"));

        //7. 提交
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

輸出結果

大資料-Hadoop生態(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分組

1.排序概述 2.排序分類 3.WritableComparable案例這個檔案,是大資料-Hadoop生態(12)-Hadoop序列化和原始碼追蹤的輸出檔案,可以看到,檔案根據key,也就是手機號進行了字典排序 13470253144 180 180

大資料-Hadoop生態(13)-MapReduce框架原理--Job提交原始碼和切片原始碼解析

1.MapReduce的資料流 1) Input -> Mapper階段輸入源是一個檔案,經過InputFormat之後,到了Mapper就成了K,V對,以上一章的流量案例來說,經過InputFormat之後,變成了手機號為key,這一行資料為value的K,V對,所以這裡我們可以自定義Inp

大資料-Hadoop生態(14)-MapReduce框架原理-切片機制

1.FileInputFormat切片機制切片機制比如一個資料夾下有5個小檔案,切片時會切5個片,而不是一個片案例分析 2.FileInputFormat切片大小的引數配置原始碼中計算切片大小的公式切片大小設定獲取切片大小API 3. CombineT

大資料-Hadoop生態(15)-MapReduce框架原理-自定義FileInputFormat

1. 需求將多個小檔案合併成一個SequenceFile檔案（SequenceFile檔案是Hadoop用來儲存二進位制形式的key-value對的檔案格式），SequenceFile裡面儲存著多個檔案，儲存的形式為檔案路徑+名稱為key，檔案內容為value 三個小檔案 on

大資料-Hadoop生態(17)-MapReduce框架原理-MapReduce流程,Shuffle機制,Partition分割槽

MapReduce工作流程 1.準備待處理檔案 2.job提交前生成一個處理規劃 3.將切片資訊job.split,配置資訊job.xml和我們自己寫的jar包交給yarn 4.yarn根據切片規劃計算出MapTask的數量 (以一個MapTask為例) 5.Maptask呼叫

大資料-Hadoop生態(1)-CentOS6.8的安裝,配置和克隆

準備工作 150G及以上的硬碟空間(因為要搭建3個系統組成的叢集),cpu儘量i7-7xxx標壓以上,記憶體16G及以上自行搜尋,下載,安裝VMWare 準備CentOS6.8的映象檔案注意:安裝虛擬機器前必須開啟BIOS虛擬化支援安裝CentOS

大資料---hadoop生態圈之架構HDFS-MR-YARN原理圖彙總終極篇

1、HDFS架構原理圖Secondary Namenode流程圖HDFS寫流程官方HDFS架構圖副本存放策略各個元件概念和作業Namenode:儲存:檔案系統的名稱空間a.檔名稱;b.檔案目錄結構;c.檔案的屬性[許可權,建立時間,副本數];d.檔案對應哪些資料塊-->

大資料架構師：如何從零基礎搭建大資料hadoop生態圈

從年初起，幾家國際大廠的開發者大會，無論是微軟Build、Facebook F8還是稍後的Google I/O，莫不把“AI優先”的大旗扯上雲霄。如果這一波AI大潮只是空喊幾句口號，空提幾個戰略，空有幾家炙手可熱的創業公司，那當然成不了什麼大氣候。但風浪之下，我們看到的卻是，Google一線的各大業

大資料-Hadoop生態(3)-Hadoop介紹

Hadoop三大發行版本 Hadoop三大發行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基礎）的版本，對於入門學習最好。 Cloudera在大型網際網路企業中用的較多。 Hortonworks文件較好。 Apache Hadoop 官網地址

大資料-Hadoop生態(6)-HDFS的shell操作

1．基本語法使用 hadoop fs 具體命令或者 hdfs dfs 具體命令 hadoop命令的shell原始碼 hdfs命令的shell原始碼由此可見,這兩個命令最後都是執行的一個java類的,而下面兩張圖是分別是fs和dfs的執行ja

大資料-Hadoop生態(7)-HDFS客戶端的API操作

1 客戶端環境準備根據自己電腦的作業系統拷貝對應的編譯後的hadoop jar包到非中文路徑配置HADOOP_HOME的環境變數,並且在path中配置hadoop的bin 重啟電腦 2. HdfsClientDemo 建立一個Maven專案,在pom.xml中匯入相應的依賴,匯入

大資料-Hadoop生態(9)-NameNode和SecondaryNameNode

1.NN和2NN工作機制首先，我們做個假設，如果儲存在NameNode節點的磁碟中，因為經常需要進行隨機訪問，還有響應客戶請求，必然是效率過低。因此，元資料需要存放在記憶體中。但如果只存在記憶體中，一旦斷電，元資料丟失，整個叢集就無法工作了。因此產生在磁碟中備份元資料的FsImage。這樣又會帶來新的

大資料-Hadoop生態(12)-Hadoop序列化和原始碼追蹤

1.什麼是序列化 2.為什麼要序列化 3.為什麼不用Java的序列化 4.自定義bean物件實現序列化介面（Writable）在企業開發中往往常用的基本序列化型別不能滿足所有需求，比如在Hadoop框架內部傳遞一個bean物件，那麼該物件就需要實現序列化介面。具體實現bean物件序列

大資料hadoop生態系統

1. hadoop 生態概況 Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。充分利用叢集的威力進行高速運算和儲存。具有可靠、高效、可伸縮的特點。 Hadoop的核心是YARN,HDF

大資料-Hadoop-MapReduce (一) 第一性原理

Hadoop-MapReduce的第一性原理一句話理解: 在hdfs的基礎上,可以把超過PB級別的日誌檔案(一般為文字檔案),以Map的方式逐行處理形成 Map<A,1>Map<

大資料(hadoop-Mapreduce原理架構)

課程目標： 1：MapReduce的應用場景 2：MapReduce程式設計模型 3：MapReduce的架構 4：常見

大資料 hadoop hdfs mapreduce

大資料hadoop Hadoop是一個開源的框架，也是Apache的一個頂級專案。Hadoop框架中由兩大模組組成，一個HDFS(Hadoop Distributed File System)，是用來儲存需要處理資料，另外一個是MapReduce，是Hadoop的處理資料的計算模型。

大資料 Hadoop的生態系統和元件

大資料面試部分：MapReduce的工作原理

3.講述一下mapreduce的流程（shuffle的sort，partitions，group）首先是 Mapreduce經過SplitInput 輸入分片決定map的個數在用Record記錄 key value。然後分為以下三個流程： Map：輸入 key（

Hadoop On Yarn Mapreduce執行原理與常用資料壓縮格式

我們通過提交jar包，進行MapReduce處理，那麼整個執行過程分為五個環節： 1、向client端提交MapReduce job. 2、隨後yarn的ResourceManager進行資源的分配. 3、由NodeManager進行載入與監控containers. 4、通

大資料-Hadoop生態(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分組

相關推薦