自定義物件實現 MapReduce 框架的序列化及排序

阿新 • • 發佈：2019-01-31

如果需要將自定義的 bean 放在 key 中傳輸，則還需要實現 Comparable 介面，因為 MapReduce框中的 shuffle 過程一定會對 key 進行排序，此時，自定義的 bean 實現的介面應該是：public class FlowBean implements WritableComparable<FlowBean>：

例：

進行了序列化的 Flow 類：

package flow.pojo;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

/**
 * 使用者自定義的POJO類如果充當key的話，那麼必須要進行序列化操作和執行排序規則
 * 
 * 讓 Flow實現Writable介面，就是讓該類具有序列化和反序列化的能力
 * 
 * 真正的操作: 其實就是把當前的某個物件，進行序列化，就是把屬性值通過流進行傳輸到其他的儲存介質或者流
 * 
 * 實現序列化操作
 * 實現反序列化操作
 * 指定排序規則
 *
 */


public class Flow  implements WritableComparable<Flow>{

	private String phone;
	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	
	
	public String getPhone() {
		return phone;
	}

	public void setPhone(String phone) {
		this.phone = phone;
	}

	public long getUpFlow() {
		return upFlow;
	}

	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}

	public long getDownFlow() {
		return downFlow;
	}

	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}

	public long getSumFlow() {
		return sumFlow;
	}

	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}
		
	public Flow() {
		super();
	}

	public Flow(String phone, long upFlow, long downFlow, long sumFlow) {
		super();
		this.phone = phone;
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow = sumFlow;
	}

	@Override
	public String toString() {
		return "Flow [phone=" + phone + ", upFlow=" + upFlow + ", downFlow=" + downFlow + ", sumFlow=" + sumFlow + "]";
	}


	/**
	 * 序列化方法
	 */
	@Override
	public void write(DataOutput out) throws IOException {

		out.writeUTF(phone);
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);

	}
	
	/**
	 * 反序列化操作
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
		
		this.phone = in.readUTF();
		this.upFlow = in.readLong();
		this.downFlow = in.readLong();
		this.sumFlow = in.readLong();
		
	}
	

	/**
	 * 排序規則
	 */
	@Override
	public int compareTo(Flow o) {
		/**
		 * 按照總流量 從大到小
		 */
		long diff = o.getSumFlow() - this.getSumFlow();
		if(diff == 0){
			return 0;
		}else{
			return diff > 0 ? 1 : -1;
		}
		
	}

}

統計上行流量和下行流量之和並且按照流量大小倒序排序的 MR 程式Flow2MR ：

package flow.pojo;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
* 實現流量彙總並且按照流量大小倒序排序 前提：處理的資料是已經彙總過的結果檔案
*/

public class Flow2MR {
	// 在 kv 中傳輸我們自定義的物件是可以的，但是必須實現 hadoop 的序列化機制 implements Writable, 如果要排序，
	// 還要實現 Comparable 介面， hadoop 為 我 們 提 供 了 一 個 方 便 的 類 ， 叫 做 WritableComparable，直接實現就好
	
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		//叢集
		conf.set("fs.defaultFS", "hdfs://hadoop01:9000");
		System.setProperty("HADOOP_USER_NAME", "hadoop");
		
		Job job = Job.getInstance(conf);
		// 告訴框架，我們的程式所在 jar 包的路徑
		job.setJarByClass(Flow2MR.class);
		
		// 告訴框架，我們的程式所用的 mapper 類和 reducer 類
		job.setMapperClass(Flow2MRMapper.class);	
//		job.setReducerClass(Flow2MRReducer.class);
		
		// 告訴框架，我們的 mapperreducer 輸出的資料型別
		job.setMapOutputKeyClass(Flow.class);
		job.setMapOutputValueClass(NullWritable.class);	
		
//		// 如果reducer階段的輸出的key-value的型別和mapper階段的一致，那麼可以省略前面的setMapOutClass()
//		job.setOutputKeyClass(Text.class);
//		job.setOutputValueClass(Text.class);
		
		
		// 框架中預設的輸入輸出元件就是這倆貨，所以可以省略這兩行程式碼
		/*
		* job.setInputFormatClass(TextInputFormat.class);
		* job.setOutputFormatClass(TextOutputFormat.class);
		*/
		
		// 告訴框架，我們要處理的檔案在哪個路徑下
		Path inputPath = new Path(args[0]);
		// 告訴框架，我們的處理結果要輸出到哪裡去
		Path outputPath = new Path(args[1]);
		FileInputFormat.setInputPaths(job, inputPath);
		FileSystem fs = FileSystem.get(conf);
		if(fs.exists(outputPath)){
			fs.delete(outputPath,true);
		}
		FileOutputFormat.setOutputPath(job, outputPath);
		
		
		boolean isDone = job.waitForCompletion(true);
		System.exit(isDone ? 0 : 1);
			
	}
	
	
	/**
	 * 		Mapper階段的業務邏輯
	 * 
	 * 	null也有對於的參與序列化的指定型別: NullWritable
	 */
	private static class Flow2MRMapper extends Mapper<LongWritable, Text, Flow, NullWritable>{

		@Override
		protected void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			// 將讀到的一行資料進行欄位切分
			String[] split = value.toString().split("\t");
			// 抽取業務所需要的各欄位
			String phone = split[0];
			long upFlow = Long.parseLong(split[1]);
			long downFlow = Long.parseLong(split[2]);
			long sumFlow = Long.parseLong(split[3]);
			Flow flow = new Flow(phone, upFlow, downFlow, sumFlow);
			
			context.write(flow, NullWritable.get());
		}
		
	}
	
	/**
	 * Reducer階段的業務邏輯
	 */
	private static class Flow2MRReducer extends Reducer<Text, Text, Text, Text>{

		// reduce 方法接收到的 key 是某一組<a 手機號，bean><a 手機號，bean><a 手機號，bean>中的第一個手機號
		// reduce 方法接收到的 vlaues 是這一組 kv 中的所有 bean 的一個迭代器
					
		@Override
		protected void reduce(Text key, Iterable<Text> values, Context context)
				throws IOException, InterruptedException {
			/**
			 * 在當前排序操作中，根本不需要 reducer階段去指定 一些邏輯
			 * 
			 * 但是需要Reducer階段: 因為只有有reducer階段，最終的結果集才會按照key進行排序
			 */
		
		}

		
		
	}
	
	

}

自定義物件實現 MapReduce 框架的序列化及排序

如果需要將自定義的 bean 放在 key 中傳輸，則還需要實現 Comparable 介面，因為 MapReduce框中的 shuffle 過程一定會對 key 進行排序，此時，自定義的 bean 實現的介面應該是：public class FlowBean impleme

Map集合的遍歷方式以及TreeMap集合儲存自定義物件實現比較的Comparable和Comparator兩種方式

Map集合的特點 1、Map集合中儲存的都是鍵值對，鍵和值是一一對應的 2、一個對映不能包含重複的值 3、每個鍵最多隻能對映到一個值上 Map介面和Collection介面的不同 Map是雙列集合的根介面，Collection是單列集合的根介面 1、Map是雙列的(是雙列集合的根介

Python進階：自定義物件實現切片功能

切片是 Python 中最迷人最強大最 Amazing 的語言特性（幾乎沒有之一），在《Python進階：切片的誤區與高階用法》中，我介紹了切片的基礎用法、高階用法以及一些使用誤區。這些內容都是基於原生的序列型別（如字串、列表、元組......），那麼，我們是否可以定義自己的序列型別並讓它支援切片語法呢？更進

Python 進階：自定義物件實現切片功能

切片是 Python 中最迷人最強大最 Amazing 的語言特性（幾乎沒有之一），在《 Python進階：切片的誤區與高階用法》中，介紹了切片的基礎用法、高階用法以及一些使用誤區。這些內容都是基於原生的序列型別（如字串、列表、元組……），那麼，我們是否可以定義自己的序列型別並讓它支援切

springboot工程中用自定義註解的方式json序列化（fastjson）

在開發工作中，有一些使用者敏感欄位要在後端處理，所以就想在json格式化的時候做處理；我們工程配置的是fastjson來做為json序列化；所以想通過實現fastjson的介面來實現json可配置格式化；首先想到的坑定是自定義註解了；通過註解來在json格式化的時候；

Unity3d進階學習（8）-- 自定義資源配置檔案、序列化

一、資源配置檔案、序列化的介紹資源配置檔案：在遊戲開發中，經常會用到一些配置檔案儲存一些資料，然後專案執行中讀取這些配置檔案中的資料在遊戲中使用。比如 XML、JSON、Protobuf、Excel

自定義View實現 android圓形統計圖及百分比顯示

兄弟們廢話不多說，直接上程式碼了： package com.zz.kotlintest.view; import android.content.Context; import android.content.res.Resources; import andr

QDataStream實現自定義物件序列化

專案需求將使用者上一次配置資訊儲存到硬碟上，以便下次使用者直接載入。我是講使用者配置資訊作為一個類存在的，研究了2天QT平臺上的物件序列化問題。C++的序列化問題在VC平臺上實現比較簡單。Java的序列化問題只需要實現

iOS 之JSON序列化的注意（陣列，字典，自定義物件的序列化）

注意：要序列化的物件：最外層的物件型別必須是NSArray或NSDictionary；字典的key必須是NSSting型別；數字不能是NAN或無限大；所有的物件型別必須時NString，NSNumber，NSAray，NSDIctionary，NSNull；- (void)v

使用RabbitMQ放置自定義物件（不借助序列化工具，例如protobuffer）V2.0

如何使用RabbitMQ盛放自定義的物件呢？一般都會使用序列化工具在投放之前轉換一次，從MQ取回的時候再逆序列化還原為本地物件。這裡使用C++自帶的強制型別裝換，將本地物件的記憶體模型當做自然的序列化之後的資料，直接當做位元組流放到string物件中，從MQ取回的時候用同樣

MongoDB 自帶JSON類序列化自定義物件為Json字串解決方案

今天在使用MongoDB時，需要將自定義的POJO類通過mongoDB自帶的JSON.serialize序列化成一個Json格式的字串，但一直報json don't serialize object異常，又不想使用第三方的jar包，網上到處搜沒搜到。最後看api文件實現Ob

Java 知識點整理-10.Java集合框架去除ArrayList中重複字串、自定義物件棧和佇列泛型 JDK5新特性 asList() toArray(T[] a) ArrayList迴圈巢狀

詳細標題：去除ArrayList中重複字串、自定義物件元素方式棧和佇列泛型 JDK5新特性（增強for迴圈三種迭代（普通for、迭代器、增強for）中的元素能否刪除靜態匯入可變引數）Arrays工具類的asList() Collection中toArray(T[] a) 集合巢狀之Arra

ssm框架中通過自定義異常實現對事務的管理

什麼時候回滾事務？在spring的事務管理中我們首先要明白這個問題，一般是在丟擲執行期異常的時候會進行事務的回滾。而spring的宣告式事務管理只接受執行期異常。異常通常分為執行期異常和編譯期異常。在java中常見的執行期異常有： NullPointerExcept

JavaScript實現建立自定義物件的常用方式總結

物件字面量方式物件字面量方式是建立自定義物件的首選模式，簡單方便。 var per = { name:'zhangsan', age:25, job:'html', sayName:function(){ alert(this.name); } } *

java:集合框架(ArrayList儲存字串和自定義物件並遍歷泛型版)

A:案例演示 * ArrayList儲存字串並遍歷泛型版 import java.util.ArrayList; import java.util.Iterator; import com.

在Android系統中實現AIDL 自定義物件傳遞

今天要在《在Android系統中實現AIDL介面回撥》這篇文章的基礎上實現AIDL自定義物件的傳遞功能。還是上一篇說到的三個專案： ├── SimpleJar ├── SimpleJarClient └── SimpleJarService 一、在SimpleJar專

集合框架之TreeSet集合的自定義物件

package myclass; import java.util.; / 往TreeSet集合中儲存自定義物件學生向按照學生的年齡進行排序。需要實現Compareable 介面。當主要條件相同時，就需要比較次要條件 */ class Student im

結合案例講解MapReduce重要知識點 -------- 使用自定義資料實現記憶體排序

自定義資料WCData import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparab

集合框架_TreeSet儲存自定義物件並遍歷練習2)

package cn.itcast_06; import java.util.TreeSet; import cn.itcast_06.Student; /* * 需求:請按照姓名的長度排序

集合框架_Collection儲存自定義物件並遍歷案例

package cn.itcast_02; import java.util.ArrayList; import java.util.Collection; /* * 練習:用集合儲存5個學生物

自定義物件實現 MapReduce 框架的序列化及排序

相關推薦