MapReduce排序之二次排序

阿新 • • 發佈：2019-02-02

一：背景

Hadoop中雖然有自動排序和分組，由於自帶的排序是按照Key進行排序的，有些時候，我們希望同時對Key和Value進行排序。自帶的排序功能就無法滿足我們了，還好Hadoop提供了一些元件可以讓開發人員進行二次排序。

二：技術實現

我們先來看案例需求

#需求1：首先按照第一列數字升序排列，當第一列數字相同時，第二列數字也升序排列(列之間用製表符\t隔開)

MapReduce計算之後的結果應該是：

#需求2：第一列不相等時，第一列按降序排列，當第一列相等時，第二列按升序排列

MapReduce計算之後的結果應該是：

下面是實現程式碼，實現兩種需求的關鍵是compareTo()方法的實現不同：

public class SecondSortTest {

	// 定義輸入路徑
		private static final String INPUT_PATH = "hdfs://liaozhongmin:9000/data";
		// 定義輸出路徑
		private static final String OUT_PATH = "hdfs://liaozhongmin:9000/out";

		public static void main(String[] args) {

			try {
				// 建立配置資訊
				Configuration conf = new Configuration();
				
				/**********************************************/
				//對Map端輸出進行壓縮
				//conf.setBoolean("mapred.compress.map.output", true);
				//設定map端輸出使用的壓縮類
				//conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class);
				//對reduce端輸出進行壓縮
				//conf.setBoolean("mapred.output.compress", true);
				//設定reduce端輸出使用的壓縮類
				//conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);
				// 新增配置檔案(我們可以在程式設計的時候動態配置資訊，而不需要手動去改變叢集)
				/*
				 * conf.addResource("classpath://hadoop/core-site.xml"); 
				 * conf.addResource("classpath://hadoop/hdfs-site.xml");
				 * conf.addResource("classpath://hadoop/hdfs-site.xml");
				 */

				// 建立檔案系統
				FileSystem fileSystem = FileSystem.get(new URI(OUT_PATH), conf);
				// 如果輸出目錄存在，我們就刪除
				if (fileSystem.exists(new Path(OUT_PATH))) {
					fileSystem.delete(new Path(OUT_PATH), true);
				}

				// 建立任務
				Job job = new Job(conf, SecondSortTest.class.getName());

				//1.1	設定輸入目錄和設定輸入資料格式化的類
				FileInputFormat.setInputPaths(job, INPUT_PATH);
				job.setInputFormatClass(TextInputFormat.class);

				//1.2	設定自定義Mapper類和設定map函式輸出資料的key和value的型別
				job.setMapperClass(MySecondSortMapper.class);
				job.setMapOutputKeyClass(CombineKey.class);
				job.setMapOutputValueClass(LongWritable.class);

				//1.3	設定分割槽和reduce數量(reduce的數量，和分割槽的數量對應，因為分割槽為一個，所以reduce的數量也是一個)
				job.setPartitionerClass(HashPartitioner.class);
				job.setNumReduceTasks(1);

				//1.4	排序、分組
				//1.5	歸約
				//2.1	Shuffle把資料從Map端拷貝到Reduce端。
				//2.2	指定Reducer類和輸出key和value的型別
				job.setReducerClass(MySecondSortReducer.class);
				job.setOutputKeyClass(LongWritable.class);
				job.setOutputValueClass(LongWritable.class);

				//2.3	指定輸出的路徑和設定輸出的格式化類
				FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
				job.setOutputFormatClass(TextOutputFormat.class);


				// 提交作業 退出
				System.exit(job.waitForCompletion(true) ? 0 : 1);
			
			} catch (Exception e) {
				e.printStackTrace();
			}
		}
	
	public static class MySecondSortMapper extends Mapper<LongWritable, Text, CombineKey, LongWritable>{
		
		//定義聯合的key
		private CombineKey combineKey = new CombineKey();
		
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, CombineKey, LongWritable>.Context context) throws IOException,
				InterruptedException {
			//對輸入的value進行切分
			String[] splits = value.toString().split("\t");
			//設定聯合的key
			combineKey.setComKey(Long.parseLong(splits[0]));
			combineKey.setComVal(Long.parseLong(splits[1]));
			
			//通過context寫出去
			context.write(combineKey, new LongWritable(Long.parseLong(splits[1])));
		}
	}
	
	
	public static class MySecondSortReducer extends Reducer<CombineKey, LongWritable, LongWritable, LongWritable>{
		@Override
		protected void reduce(CombineKey combineKey, Iterable<LongWritable> values, Reducer<CombineKey, LongWritable, LongWritable, LongWritable>.Context context)
				throws IOException, InterruptedException {
			//因為輸入的CombineKey已經排好序了，所有我們只要獲取其中的兩個成員變數寫出去就可以了。values在這個例子中沒有什麼作用
			context.write(new LongWritable(combineKey.getComKey()), new LongWritable(combineKey.getComVal()));
		}
	}

}

/**
 * 重新組合成一個key，實現二次排序
 * @author 廖*民
 * time : 2015年1月18日下午7:27:52
 * @version
 */
class CombineKey implements WritableComparable<CombineKey>{

	public long comKey;
	public long comVal;
	
	//必須提供無參建構函式，否則hadoop反射機制會出錯
	public CombineKey() {
		
	}
	//有參建構函式
	public CombineKey(long comKey, long comVal) {
		this.comKey = comKey;
		this.comVal = comVal;
	}

	
	
	public long getComKey() {
		return comKey;
	}
	public void setComKey(long comKey) {
		this.comKey = comKey;
	}
	public long getComVal() {
		return comVal;
	}
	public void setComVal(long comVal) {
		this.comVal = comVal;
	}
	
	public void write(DataOutput out) throws IOException {
		out.writeLong(comKey);
		out.writeLong(comVal);
	}

	public void readFields(DataInput in) throws IOException {
		this.comKey = in.readLong();
		this.comVal = in.readLong();
	}

	/**
	 * 這個方法一定要實現
	 * java裡面排序預設是小的放在前面，即返回負數的放在前面，這樣就是所謂的升序排列
	 * 我們在下面的方法中直接返回一個差值，也就相當於會升序排列。
	 * 如果我們要實現降序排列，那麼我們就可以返回一個正數
	 */
	/*public int compareTo(CombineKey o) {
		//第一列不相同時按升序排列，當第一列相同時第二列按升序排列
		long minus = this.comKey - o.comKey;
		//如果第一個值不相等時，我們就先對第一列進行排序
		if (minus != 0){
			return (int) minus;
		}
		//如果第一列相等時，我們就對第二列進行排序
		return (int) (this.comVal - o.comVal);
	}*/
	
	/**
	 * 為了實現第一列不同時按降序排序，第一列相同時第二列按升序排列
	 * 第一列：降序，當第一列相同時，第二列：升序
	 * 為了實現降序，
	 */
	public int compareTo(CombineKey o) {
		//如果a-b<0即,a小於b，按這樣 的思路應該是升序排列，我們可以返回一個相反數使其降序
		long tmp = this.comKey - o.comKey;
		//如果第一個值不相等時，我們就先對第一列進行排序
		if (tmp != 0){
			return (int) (-tmp);
		}
		//如果第一列相等時，我們就對第二列進行升序排列
		return (int) (this.comVal - o.comVal);
	}
	
	
	@Override
	public int hashCode() {
		final int prime = 31;
		int result = 1;
		result = prime * result + (int) (comKey ^ (comKey >>> 32));
		return result;
	}
	@Override
	public boolean equals(Object obj) {
		if (this == obj)
			return true;
		if (obj == null)
			return false;
		if (getClass() != obj.getClass())
			return false;
		CombineKey other = (CombineKey) obj;
		if (comKey != other.comKey)
			return false;
		return true;
	}
	
}

程式執行結果就不貼了，和預想的一樣！

MapReduce程序之二次排序與多次排序

大數據 Hadoop MapReduce Java [toc] MapReduce程序之二次排序與多次排序需求有下面的數據： cookieId time url 2 12:12:34 2_hao123 3 09:10:34 3_baidu 1 15:0

MapReduce排序之二次排序

一：背景 Hadoop中雖然有自動排序和分組，由於自帶的排序是按照Key進行排序的，有些時候，我們希望同時對Key和Value進行排序。自帶的排序功能就無法滿足我們了，還好Hadoop提供了一些元件可以讓開發人員進行二次排序。二：技術實現我們先來看案例需求 #需求1：

Hadoop之MapReduce自定義二次排序流程例項詳解

一、概述 MapReduce框架對處理結果的輸出會根據key值進行預設的排序，這個預設排序可以滿足一部分需求，但是也是十分有限的。在我們實際的需求當中，往往有要對reduce輸出結果進行二次排序的需求。對於二次排序的實現，網路上已經有很多人分享過了，但是對二次排序的實現的

大數據技術之輔助排序和二次排序案例（GroupingComparator）

group http pac ppr instance div lec tex boolean 大數據技術之輔助排序和二次排序案例（GroupingComparator） 1）需求有如下訂單數據訂單id 商品id 成交金額

MapReduce端的二次排序以及對移動計算而不是移動資料的理解

， 1.其實MapReduce的二次排序是我們定義的sort排序會執行兩遍，第一遍是在map端執行，針對一個map任務的(當partition之後的將資料寫入到記憶體緩衝區的時候，達到記憶體緩衝區的80%的時候就會spill到disk,此時disk是作為硬碟快取的，所以我們

hadoop-之二次排序&分組&分割槽

package p5.gyg.two.sort;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org

Spark：高階排序（二次排序）

為了多維的排序，需要考慮多個條件，這要求我們自定義key 1 23 3 22 3 31 1 12 2 11 4 45 二、使用java實現 2.1、自定義key 使用scala.math.Ordered介面,實現Serializable介面 package com.

Spark的高階排序（二次排序）

為了多維的排序，需要考慮多個條件，這要求我們自定義key 1 23 3 22 3 31 1 12 2 11 4 45 二、使用java實現 2.1、自定義key 使用scala.math.Ordered介面,實現Serializable介

Hadoop MapReduce二次排序演算法與實現之演算法解析

MapReduce二次排序的原理 1.在Mapper階段，會通過inputFormat的getSplits來把資料集分割成split public abstract class Input

mapreduce 的二次排序

大數據 hadoop 二次排序 mapreduce 一：理解二次排序的功能，使用自己理解的方式表達（包括自定義數據類型，分區，分組，排序）二：編寫實現二次排序功能，提供源碼文件。三：理解mapreduce join 的幾種方式，編碼實現reduce join，提供源代碼，說出

MapReduce的二次排序

這裡介紹二次排序的思路整理，並附上具體程式碼首先要明確二次排序的基本概念:在我們所之前所熟悉的排序稱為一次排序，即只對key進行排序所以二次排序的概念在原來的基礎上便不難理解，即對key進行排序的同時對

MapReduce二次排序

必須 .lib rec settime string == 技術分享字段排序 protect 一、背景　　按照年份升序排序，同時每一年中溫度降序排序　　data文件為1949年-1955年每天的溫度數據。　　要求：1、計算1949-1955年，每年溫度最高的時間　

關於MapReduce二次排序的一點解答

網上 hash 使用 table 為什麽 exti 而且分區 ret 上一篇博客說明了怎麽自定義Key，而且用了二次排序的例子來做測試，但沒有詳細的說明二次排序，這一篇說詳細的說明二次排序，為了說明曾經一個思想的誤區，特地做了一個3個字段的二次排序來說明。後面稱其為“三次

大資料技術學習筆記之Hadoop框架基礎5-Hadoop高階特性HA及二次排序思想

一、回顧 -》shuffle流程 -》input：讀取mapreduce輸入的 &nbs

Python Hadoop Mapreduce 實現Hadoop Streaming分組和二次排序

需求：公司給到一份全國各門店銷售資料，要求：1.按門店市場分類，將同一市場的門店放到一起；2.將各家門店按銷售額從大到小，再按利潤從大到小排列一需求一：按市場對門店進行分組分組(partition) Hadoop streaming框架預設情況下會以’/t

結合案例講解MapReduce重要知識點 ------- 使用自定義MapReduce資料型別實現二次排序

自定義資料型別SSData import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableCompa

43.top10熱門品類之使用Scala實現二次排序

本文為《Spark大型電商專案實戰》系列文章之一，主要介紹使用Scala實現二次排序。程式碼實現在Scala IDE中的包com.erik.sparkproject中建立SortKey.sca

Hadoop二次排序及MapReduce處理流程例項詳解

一、概述 MapReduce框架對處理結果的輸出會根據key值進行預設的排序，這個預設排序可以滿足一部分需求，但是也是十分有限的，在我們實際的需求當中，往往有要對reduce輸出結果進行二次排序的需求。對於二次排序的實現，網路上已經有很多人分享過了，但是對二次排序的實現原理

Hadoop Mapreduce分割槽、分組、二次排序過程詳解[轉]

徐海蛟教學用途 1、MapReduce中資料流動（1）最簡單的過程： map - reduce （2）定製了partitioner以將map的結果送往指定reducer的過程：　map - partition - reduce （3）增加了在本地先進性一次reduce（優化）過程：　

mapreduce程式設計（一）－二次排序

mr自帶的例子中的原始碼SecondarySort，我重新寫了一下，基本沒變。這個例子中定義的map和reduce如下，關鍵是它對輸入輸出型別的定義：（java泛型程式設計） public static class Map extends Mapper<LongW

MapReduce排序之 二次排序

相關推薦

MapReduce排序之二次排序