使用Hadoop的MapReduce實現資料排序

阿新 • • 發佈：2019-02-19

最近想系統學習大資料知識，在觀看視訊編寫程式碼的時候，在資料排序的時候，出現了一些問題，一致於弄了好久才找到原因，現在記錄下來，方便檢視

資料輸入格式：

按照我的程式碼邏輯，應該輸出資料為

在程式碼處理時，計算結果卻是

沒有輸出輸入的資料，而是輸出

最後儲存在HDFS上的資料只是

1   1
2   2
3   3
4   4
5   5
6   6
7   7
8   8
9   9
10   10
11   11
12   12
13   13
14   14
15   15
16   16
17   17

我猜測是後面的資料覆蓋了前面的寫入的資料

我在網上查了一下，發現自己程式碼中使用了setCombinerClass（）

將這一行程式碼註釋後，執行，真能跑出結果，然後就查setCombinerClass的用法：

是同時使用了setCombineClass()和setReducerClass()造成的

完整程式碼示例：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;


/**
 * FileName: SortedData
 * Author:   hadoop
 * Email:    [email protected]
 * Date:     18-10-6 上午10:54
 * Description:
 * 數字排序
 */

public class SortedData {
    /**
     * 使用Mapper將資料檔案中的資料本身作為Mapper輸出的key直接輸出
     */

    public static class forSortedMapper extends Mapper<Object, Text, IntWritable, IntWritable> {
        private IntWritable mapperValue = new IntWritable(); //存放key的值
        public void map(Object key, Text value, Context context)
                throws IOException, InterruptedException {
            String line = value.toString(); //獲取讀取的值，轉化為String
            mapperValue.set(Integer.parseInt(line)); //將String轉化為Int型別
            context.write(mapperValue,new IntWritable(1)); //將每一條記錄標記為（key，value） key--數字 value--出現的次數
                                                                //每出現一次就標記為（number，1）
        }
    }


/**
     * 使用Reducer將輸入的key本身作為key直接輸出
     */


 public static class forSortedReducer extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{
        private IntWritable postion = new IntWritable(1); //存放名次
        @Override
        protected void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            for (IntWritable item :values){ //同一個數字可能出多次，就要多次並列排序
                context.write(postion,key); //寫入名次和具體數字
                System.out.println(postion + "\t"+ key);
                postion = new IntWritable(postion.get()+1); //名次加1
            }
        }
    }


    public static void main(String[] args) throws Exception {


        Configuration conf = new Configuration(); //設定MapReduce的配置
        conf.set("mapred.job.tracker", "192.168.1.108:9000");
        String[] otherArgs = new GenericOptionsParser(conf,args).getRemainingArgs();
        if(otherArgs.length < 2){
            System.out.println("Usage: SortedData <in> [<in>...] <out>");
            System.exit(2);
        }

        //設定作業
        //Job job = new Job(conf);
        Job job = Job.getInstance(conf);
        job.setJarByClass(SortedData.class);
        job.setJobName("SortedData");
        //設定處理map,reduce的類
        job.setMapperClass(forSortedMapper.class);
        job.setReducerClass(forSortedReducer.class);
        //設定輸入輸出格式的處理
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);
        //設定輸入輸出路徑
        for (int i = 0; i < otherArgs.length-1;++i){
            FileInputFormat.addInputPath(job,new Path(otherArgs[i]));
        }
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length-1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }

}

使用Hadoop的MapReduce實現資料排序

最近想系統學習大資料知識，在觀看視訊編寫程式碼的時候，在資料排序的時候，出現了一些問題，一致於弄了好久才找到原因，現在記錄下來，方便檢視資料輸入格式：按照我的程式碼邏輯，應該輸出資料為在程式碼處理時，計算結果卻是沒有輸出輸入的資料，而是輸出

【Java】歸併排序的非遞迴實現資料結構與演算法合集資料結構與演算法合集

　　歸併排序可以採用遞迴方法（見：歸併排序），但遞迴方法會消耗深度位O(longn)的棧空間，使用歸併排序時，應該儘量使用非遞迴方法。本文實現了java版的非遞迴歸併排序。更多：資料結構與演算法合集思路分析　　遞迴排序的核心是merge(int[] arr, int start, int mid,

結合案例講解MapReduce重要知識點 -------- 使用自定義資料實現記憶體排序

自定義資料WCData import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparab

程式實現對資料排序並按出現次數進行排序程式實現對資料排序並按出現次數進行排序（注：用面向物件的方式實現，用for迴圈進行排序，別用comparable介面實現）{1，4，2，1，3，2，1，4}作為

程式實現對資料排序並按出現次數進行排序程式實現對資料排序並按出現次數進行排序（注：用面向物件的方式實現，用for迴圈進行排序，別用comparable介面實現）{1，4，2，1，3，2，1，4}作為引數(引數可變)傳入java方法中，控制檯輸出以下結果 1出現了3次 2出現了2次

AngularJS實現資料的過濾與排序

設計一個程式：實現一個動態的學習計劃完成情況表排序過濾的設計實驗要求：1、設計web前端介面 2、利用angularJS中的依賴注入實現資料的雙向繫結 3、介面資訊要包含：姓名，學號，一週學習安排，完成情況 4、進階要求：能實現資料的過濾與排序完整程

程式實現對資料排序並按出現次數進行排序目錄 1. 題目程式實現對資料排序並按出現次數進行排序 1 2. 思路 2 3. 效果 2 4. 程式碼 /00listPrj/src/Sort.java 2

程式實現對資料排序並按出現次數進行排序目錄 1. 題目程式實現對資料排序並按出現次數進行排序 1 2. 思路 2 3. 效果 2 4. 程式碼 /00listPrj/src/Sort.java 2 題目

資料結構之---C語言實現歸併排序

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Unity排行榜，資料排序功能實現

1.建立分數列表的父物體ScoreRankList，並新增Grid Layout Group元件自動排列UI。引數自己調 2.建立單條分數的資料組合ScoreData，並作為預製體，例項化使用。子物體包含排名，姓名，分數。不囉嗦了，上程式碼。排序邏輯： /****

（hadoop學習－1）mapreduce實現資料過濾、聚合與排序

利用chain mapreduce，依次執行兩個mapreduce Job。第一個Job抽取donor_city（城市名）、total（捐贈金額）欄位，並按照城市名實現捐贈金額聚合，實現資料過濾、聚合；第二個Job，按照捐贈金額排降序。 - 第一個Job Mapper：抽取donor_city（城市名）、to

bitmap實現大資料排序和去重

要點：假如有10億元素，全部資料讀進記憶體，佔用 1000000000 * 4 / 1024 / 1024 /1024 ≈ 3.725 G，爆炸！解決方法： bitmap演算法，每一位都能表示一位數字，10000000000 / 8 / 1024 / 1024 /

Oracle資料庫rank()over(partition by order by)實現分組排序取前幾資料

Oracle1.使用 rank()over(order by)得到記錄排序根據工資排名，排名相同的時候下一個排名累加，比如第三和第四工資一樣，那麼第三第四排名都是3，第五排名是5而非4dense_rank()實現的效果不累加，第五仍是4例：select code 編號,sal

資料結構之---C語言實現氣泡排序

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

Asp.net中，點選GridView表頭實現資料的排序

一、實現該功能的基本工作。 1、先新增一個GridView,取名為gvData。 2、設定該控制元件的屬性：操作步驟如下。設定屬性：這4個屬性，還要設定該控制元件AllowSorting="True"，5點缺一不可。 3、

Oracle decode函式實現雜亂資料排序

需求有時我們從資料庫中取到的資料是雜亂的，或者是不是自己想要的順序。我們需要對資料進行有目的的排序例如：我們取到的資料為：（這不是我們想要的資料）我們需要資料順序為：我們需要對現有的資料進行排序實現對現有的資料進行排序，使用到

Set<String> 日期型別資料排序實現

package com.wyz import java.text.DateFormat; import java.text.Pa

資料結構和演算法(Golang實現)(25)排序演算法-快速排序

快速排序快速排序是一種分治策略的排序演算法，是由英國電腦科學家Tony Hoare發明的，該演算法被髮布在1961年的Communications of the ACM 國際計算機學會月刊。注：ACM = Association for Computing Machinery，國際計算機學會，世界性的計

js實現快速排序的方法

大小我們 mage 左右 div () quicksort www for 因為面試面到了這個問題，所以寫一下，加深印象，有兩種方法第一種是通過兩個for循環，每一次對比相鄰兩個數據的大小，小的排在前面，如果前面的數據比後面的大就交換這兩個數的位置，這個方法就是比較次數

C語言實現推排序

poi sort log ren -- eof parent class tdi KeyPoint : 找到關鍵的父節點　　　　　單線程找最大值最快的方法 #include "stdlib.h" #include "stdio.h" void findMax(int

使用JS實現快速排序

中間 math 遍歷 ice 大致 spl arr [0 遞歸大致分三步： 1、找基準（一般是以中間項為基準） 2、遍歷數組，小於基準的放在left，大於基準的放在right 3、遞歸 function quickSort(arr){ /

Java 實現冒泡排序

string 復雜度 nbsp ras 計算 plain length lai article 冒泡排序：就是按索引逐次比較相鄰的兩個元素，假設大於/小於(取決於須要升序排還是降序排)。則置換，否則不做改變這樣一輪下來。比較了n-1次。n等於元素的個數；n-

使用Hadoop的MapReduce實現資料排序

資料輸入格式：

相關推薦