MapReduce序列化、分割槽、排序、分組

阿新 • • 發佈：2019-01-06

package com.cxy.flow;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class Flow {
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		Configuration conf = new Configuration();
		FileSystem file = FileSystem.get(conf);
		if(file.exists(new Path(args[1]))){
			file.delete(new Path(args[1]), true);
		}
		Job job = Job.getInstance(conf);
		job.setJarByClass(Flow.class);
		job.setJobName("flow");
		
		job.setMapperClass(FlowMap.class);
		job.setReducerClass(FlowReduce.class);
		
		job.setMapOutputKeyClass(FlowBean.class);
		job.setMapOutputValueClass(NullWritable.class);
		
		job.setOutputKeyClass(FlowBean.class);
		job.setOutputValueClass(NullWritable.class);
		
		job.setGroupingComparatorClass(FlowGroup.class);
		job.setPartitionerClass(FlowPartitioner.class);
		job.setNumReduceTasks(6);;
		
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.waitForCompletion(true);
	}
}

2.Mapper類

package com.cxy.flow;

import java.io.IOException;


public class FlowMap extends Mapper<LongWritable, Text, FlowBean, NullWritable>{
	@Override
	protected void map(LongWritable key, Text value,Context context)
			throws IOException, InterruptedException {
		String[] values = value.toString().split("\\|");
		context.write(new FlowBean(values[0],Integer.parseInt(values[1]),Integer.parseInt(values[2])),NullWritable.get());
	}
}

3.Reduce

package com.cxy.flow;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

public class FlowReduce extends Reducer<FlowBean, NullWritable, FlowBean, NullWritable>{
	@Override
	protected void reduce(FlowBean key, Iterable<NullWritable> values,Context context)
			throws IOException, InterruptedException {
		context.write(key, NullWritable.get());
	}
}

4.Bean類

package com.cxy.flow;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean>{
	private String num;
	private int upflow;
	private int downflow;
	private int count;

	@Override
	public void write(DataOutput out) throws IOException {
		out.writeUTF(this.num);
		out.writeInt(this.upflow);
		out.writeInt(this.downflow);
		out.writeInt(this.count);
	}
	@Override
	public void readFields(DataInput in) throws IOException {
		this.num=in.readUTF();
		this.upflow=in.readInt();
		this.downflow=in.readInt();
		this.count=in.readInt();
	}

	@Override
	public int compareTo(FlowBean o) {
		long l1 = Long.parseLong(this.getNum());
		long l2 = Long.parseLong(o.getNum());
		if(this.getNum().equals(o.getNum())){
			if(this.getCount()>o.getCount()){
				return -1;
			}else if(this.getCount()<o.getCount()){
				return 1;
			}
		}else if(l1<l2){
			return -1;
		}else if(l1>l2){
			return 1;
		}
		return 0;
	}
	@Override
	public String toString() {
		return this.num+","+this.upflow+","+this.downflow+","+this.count;
	}
	public FlowBean() {
		super();
	}
	public FlowBean(String num, int upflow, int downflow) {
		super();
		this.num = num;
		this.upflow = upflow;
		this.downflow = downflow;
		this.count = upflow + downflow;
	}
	public FlowBean(String num) {
		super();
		this.num = num;
	}
	public String getNum() {
		return num;
	}
	public void setNum(String num) {
		this.num = num;
	}
	public int getUpflow() {
		return upflow;
	}
	public void setUpflow(int upflow) {
		this.upflow = upflow;
	}
	public int getDownflow() {
		return downflow;
	}
	public void setDownflow(int downflow) {
		this.downflow = downflow;
	}
	public int getCount() {
		return count;
	}
	public void setCount(int count) {
		this.count = count;
	}
}

5.分割槽類

package com.cxy.flow;

import java.util.HashMap;
import java.util.Map;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Partitioner;

public class FlowPartitioner extends Partitioner<FlowBean, NullWritable>{
	
	private static Map<String,Integer> map = new HashMap<String,Integer>();
	static{
		map.put("150", 1);
		map.put("159", 2);
		map.put("187", 3);
		map.put("136", 4);
	}
	@Override
	public int getPartition(FlowBean key, NullWritable value, int partinum) {
		String num = key.getNum();
		partinum = map.containsKey(num.substring(0, 3))?map.get(num.substring(0, 3)):0;
		return partinum;
	}
}

6.分組類

package com.cxy.flow;

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class FlowGroup extends WritableComparator{
	public FlowGroup() {
		super(FlowBean.class,true);
	}
	
	@Override
	public int compare(WritableComparable a, WritableComparable b) {
		FlowBean t1 = (FlowBean) a;
		FlowBean t2 = (FlowBean) b;
		if(t1.getNum().equals(t2.getNum())){
			return 0;
		}else if(Long.parseLong(t1.getNum())>Long.parseLong(t2.getNum())){
			return 1;
		}
		return -1;
	}
}

7.資料
data.txt

136139*****|100|100
137139*****|200|500
138139*****|100|300
187139*****|300|100
136139*****|400|200
139139*****|500|100
138139*****|600|200
150139*****|100|100

MapReduce序列化及分割槽的java程式碼示例

需求統計每一個使用者（手機號）所耗費的總上行流量、下行流量，總流量，將統計結果按照總流量倒序排序 hadoop jar wordcount.jar cn.itcast.bigdata.mr.flowsum.FlowCount /wordcount/input /wo

MapReduce序列化、分割槽、排序、分組

package com.cxy.flow; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileS

python3 序列化模塊（json、pickle、shelve）

username fin cti import () 轉換匯總文件 rri 序列化模塊序列化的目的 1、以某種存儲形式使自定義對象持久化； 2、將對象從一個地方傳遞到另一個地方。 3、使程序更具維護性。 1.json Json模塊提供了四個功能：dumps、dum

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

插入排序、合並排序、堆排序和快速排序

dom public and chang 大堆第一個復雜快速排序 oid 1 * 插入排序 2 * 時間復雜度O(n2) 3 * @param array原地排序算法 4 */ 5 public void insertSort(int[] arr

排序演算法（直接插入、氣泡排序、選擇排序、快速排序、希爾排序、堆排序、歸併排序）

main函式 int main() { int data[] = {1,2,6,3,4,7,7,9,8,5}; //bubble_sort(data,10); //select_sort(data,10); Insert_Sort(data,10); fo

今日分資料結構作業:氣泡排序、堆排、希爾排序、快排……

先看實驗報告: 好吧，這次實驗報告沒有什麼好吐槽的，安安分分的寫了好久。 bug無數，雖然之前寫過，但是沒這麼詳細。程式碼+註釋： import java.io.*; import java.util.Arrays; public class Main3 {

演算法初級02——荷蘭國旗問題、隨機快速排序、堆排序、桶排序、相鄰兩數的最大差值問題、工程中的綜合排序演算法

主要討論：荷蘭國旗問題、隨機快速排序、堆排序、穩定性、比較器、桶排序、相鄰兩數的最大差值問題和簡單介紹工程中的綜合排序演算法題目一給定一個數組arr，和一個數num，請把小於等於num的數放在陣列的左邊，大於num的數放在陣列的右邊。要求額外空間複雜度O(1)，時間複雜度O(N)

排序下篇（快速排序、並歸排序、堆排序、桶排序/基數排序）

5.快速排序（1）原理：在要排序的一組數中,通過一趟排序將待排記錄分隔成獨立的兩部分，其中一部分記錄的關鍵字均比另一部分的關鍵字小，則可分別對這兩部分記錄繼續進行排序，以達到整個序列有序。（2）圖解：這第一次迴圈5 小黑框是已確定位置，大黑框中使用遞迴（3）程

Python排序演算法(二) 快速排序、希爾排序、歸併排序

這篇文章有的排序演算法是：快速排序、希爾排序、歸併排序。快速排序 ''' 快速排序 ''' def quick_sort(aList, first, last): if first >= last: return min_va

排序的模板【氣泡排序、選擇排序、直接插入排序、歸併排序、堆排序】（還有排序後面繼續補）

目錄氣泡排序：選擇排序：歸併排序：堆排序：氣泡排序：第一種寫法： for(int i=0;i<n-1;i++) { for(int j=0;j<n-1-i;j++) { if(a[j]>a[j-1]) swap(a[

【資料結構】直接插入排序、詳細解釋希爾排序、直接選擇排序、選擇排序的

一、直接插入排序將一個數組進行直接插入排序，每次取陣列中一個數A儲存起來，和此數下標之前已經排好的陣列進行比較（第一次因為前面沒有數，直接取陣列第二個數），假設需要升序數列，如果A數小於要比較的數，就繼續往陣列中更小下標的數比較（在這個過程中因為A數已經儲存起

3. 排序通常有多種演算法，如氣泡排序、插入排序、選擇排序、希爾排序、歸併排序、快速排序，請選擇任意2種用java實現 [分值：20] 您的回答：(空) （簡答題需要人工評分）

3. 排序通常有多種演算法，如氣泡排序、插入排序、選擇排序、希爾排序、歸併排序、快速排序，請選擇任意2種用java實現 [分值：20] 您的回答：(空) （簡答題需要人工評分） package com.interview; /** * 各種排序演算法 */

使用js實現5種加密解密演算法（凱撒密碼、字母倒排序、單表置換、維基利亞、轉換加密演算法）

在學習作業系統的時候，我們會學到系統安全的章節，而在這一塊會有關於加密解密演算法的學習。一共有5種常見的加密解密演算法：凱撒密碼、字母倒排序、單表置換、維基利亞、轉換加密演算法。我使用了js實現了這5種演算法，而且做了視覺化處理、輸入輸出格式化處理，使得操作起來非常

C語言中常用排序演算法（氣泡排序、選擇排序、插入排序、希爾排序、快速排序、堆排序）實現比較

以下程式在win10 X64位作業系統，使用VS2017執行驗證可行排序是非常重要且很常用的一種操作，有氣泡排序、選擇排序、插入排序、希爾排序、快速排序、堆排序等多種方法。例項1 冒泡法排序 1.前言：陣列中有N個整數，用冒泡法將它們從小到大（或從大到小）排序。冒泡法

演算法初級02——荷蘭國旗問題、隨機快速排序、堆排序

public static void heapSort(int[] arr) { if (arr == null || arr.length < 2) { return; } for (int i = 0; i <

python使用pandas模組實現檔案讀取、字串處理、去重排序、excel生成

最近學習python，用python實現一個小需求,最後寫入excel使用到pandas模組：某中學學生在500米短跑訓練比賽中的資料，體育老師把學生成績結果記錄在檔案中（studentdata.txt）,記錄格式如下：卡納瓦, 2001-11-8,2:27,2:33,

演算法與資料結構(十三) 氣泡排序、插入排序、希爾排序、選擇排序（Swift3.0版）

本篇部落格中的程式碼實現依然採用Swift3.0來實現。在前幾篇部落格連續的介紹了關於查詢的相關內容, 大約包括線性資料結構的順序查詢、折半查詢、插值查詢、Fibonacci查詢，還包括數結構的二叉排序樹以及平衡二叉樹的構建與查詢，然後還聊了雜湊表的構建與查詢。接下來的幾篇部落格中我們就集中的聊一下常見的集中

三種基本排序-氣泡排序、直接插入排序、選擇排序

氣泡排序（從大到小）原理：對於n個數，需要進行n-1次掃描，每次掃描通過相鄰兩個數的比較，找出最大的數，放到數列頂部。程式： 1.氣泡排序1：每次掃描把下一個元素和最前面的元素比較，一次掃描結束後，最大的元素就在最前面了。 vo

Python八大演算法的實現，插入排序、希爾排序、氣泡排序、快速排序、直接選擇排序、堆排序、歸併排序、基數排序。

1、插入排序描述插入排序的基本操作就是將一個數據插入到已經排好序的有序資料中，從而得到一個新的、個數加一的有序資料，演算法適用於少量資料的排序，時間複雜度為O(n^2)。是穩定的排序方法。插入演算法把要排序的陣列分成兩部分：第一部分包含了這個陣列的所有元素，但將最後一

MapReduce序列化、分割槽、排序、分組

相關推薦