Mapreduce例項---分割槽流量彙總

阿新 • • 發佈：2019-02-09

一：問題介紹

給一個數據檔案，檔案包含手機使用者的各種上網資訊，求每個手機使用者的總上行流量，總下行流量和總流量；並且按號碼歸屬地分省份彙總。

資料流程：

二：需要的jar包

hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.jar
hadoop-2.4.1\share\hadoop\hdfs\lib\所有jar包

hadoop-2.4.1\share\hadoop\common\hadoop-common-2.4.1.jar
hadoop-2.4.1\share\hadoop\common\lib\所有jar包

hadoop-2.4.1\share\hadoop\mapreduce\除hadoop-mapreduce-examples-2.4.1.jar之外的jar包
hadoop-2.4.1\share\hadoop\mapreduce\lib\所有jar包

三：程式碼

自定義流量類：

/*
 * 自定義的資料型別要在hadoop叢集中傳遞，需要實現hadoop的序列化框架，就是去實現一個介面
 */
public class FlowBean implements Writable{
	private long upFlow;
	private long downFlow;
	private long sumFlow;
	
	//因為反射機制的需要，必須定義一個無參建構函式
	public FlowBean(){};
	
	public FlowBean(long upFlow, long downFlow) {
		super();
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow = upFlow+downFlow;
	}
	
	public void set(long upFlow, long downFlow){
		this.upFlow = upFlow;
		this.downFlow = downFlow;
		this.sumFlow = upFlow+downFlow;
	}
	
	public long getUpFlow() {
		return upFlow;
	}
	public void setUpFlow(long upFlow) {
		this.upFlow = upFlow;
	}
	public long getDownFlow() {
		return downFlow;
	}
	public void setDownFlow(long downFlow) {
		this.downFlow = downFlow;
	}
	public long getSumFlow() {
		return sumFlow;
	}
	public void setSumFlow(long sumFlow) {
		this.sumFlow = sumFlow;
	}
	
	/*
	 * 反序列化方法：從資料位元組流中逐個恢復出各個欄位
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
			upFlow=in.readLong();
			downFlow=in.readLong();
			sumFlow=in.readLong();
	}
	
	/*
	 * 序列化方法：將我們要傳輸的資料序列成位元組流
	 */
	@Override
	public void write(DataOutput out) throws IOException {
			out.writeLong(upFlow);
			out.writeLong(downFlow);
			out.writeLong(sumFlow);
	}
	
	@Override
	public String toString() {
		return upFlow+"\t"+downFlow+"\t"+sumFlow;
	}
}

mapper類實現：

public class ProviceFlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{
	/*
	 * 定義成成員變數，這樣可以提高效率，減少垃圾回收。
	 */
	private Text k=new Text();
	private FlowBean bean=new FlowBean();
	
	@Override
	protected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException {
		String line = value.toString();
		String[] fields = StringUtils.split(line, '\t');
		String phone=fields[1];
		long upFlow=Long.parseLong(fields[fields.length-3]);
		long downFlow=Long.parseLong(fields[fields.length-2]);
		
		k.set(phone);
		bean.set(upFlow, downFlow);
		context.write(k, bean);
	}
}

reducer類實現：

public class ProvinceFlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean>{
	private FlowBean bean=new FlowBean();
	@Override
	protected void reduce(Text key, Iterable<FlowBean> values,Context context)throws IOException, InterruptedException {
		long upFlowSum=0;
		long downFlowSum=0;
		for(FlowBean value : values){
			upFlowSum+=value.getUpFlow();
			downFlowSum+=value.getDownFlow();
		}
		bean.set(upFlowSum, downFlowSum);
		context.write(key, bean);
	}
}

job提交客戶端實現：

/*
 * 用於提交本job的一個客戶端類
 */
public class ProvinceFlowCountJobSubmitter {
	public static void main(String[] args) throws Exception {
		if(args.length<2){
			System.err.println("引數不正確：輸入資料路徑  輸出資料路徑");
			System.exit(2);
		}
		
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(ProvinceFlowCountJobSubmitter.class);
		
		job.setMapperClass(ProviceFlowCountMapper.class);
		job.setReducerClass(ProvinceFlowCountReducer.class);
		
		//map輸出的kv型別與reduce輸出的kv型別一致時，這兩行可以省略
//		job.setMapOutputKeyClass(Text.class);
//		job.setMapOutputValueClass(FlowBean.class);
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		//通過顯示指定partitioner類來讓我們自定義的partitoner起作用，替換掉系統預設的hashpartitioner
		job.setPartitionerClass(ProvincePartitioner.class);
		
		/*
		 * 設定本次job執行時的reduce task程序數，數量應該跟partitioner的分割槽數匹配
		 * 預設情況下，reduce task的數量為1
		 * 如果不匹配：
		 * 		當reduce task程序數大於partitioner的分割槽數，結果個數為reduce task程序數，但多餘的為空。
		 * 		當reduce task程序數小於partitioner的分割槽數
		 * 				如果reduce task程序數為1，則所有結果在一個檔案內，相當於未進行分割槽操作；
		 * 				否則，報錯。
		 */
		job.setNumReduceTasks(5);
		
		/*
		 * 處理的資料檔案地址
		 * 資料檔案處理後結果存放地址
		 * 從終端獲得引數
		 */
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		boolean success = job.waitForCompletion(true);
		System.exit(success?0:1);
	}
}

自定義partitoner類實現

/*
 * KEY為Mapper輸出的key
 * VALUE為Mapper輸出的value
 */
public class ProvincePartitioner extends Partitioner<Text,FlowBean>{
	private static HashMap<String, Integer> provinceMap = new HashMap<String, Integer>();
	
	//在partitioner初始化的時候就將外部字典資料一次性載入到本地記憶體中
	static{
		//載入外部的字典資料到本地記憶體
		provinceMap.put("136", 0);
		provinceMap.put("137", 1);
		provinceMap.put("138", 2);
		provinceMap.put("139", 3);
	}

	//numReduceTasks為reduce task程序的數量
	@Override
	public int getPartition(Text key, FlowBean value, int numReduceTasks) {
		//取手機號的字首
		String prefix =key.toString().substring(0, 3);
		//從字典資料中查詢歸屬地的分割槽號
		Integer provinceNum = provinceMap.get(prefix);
		if(provinceNum==null) provinceNum=4;
		return provinceNum;
	}

}

四：操作流程

1、將專案打成jar包並上傳到虛擬機器上

2、把資料檔案上傳到hdfs上

3、執行jar檔案

4、結果

Mapreduce例項---分割槽流量彙總

一：問題介紹給一個數據檔案，檔案包含手機使用者的各種上網資訊，求每個手機使用者的總上行流量，總下行流量和總流量；並且按號碼歸屬地分省份彙總。資料流程：二：需要的jar包 hadoop-2

基於MapReduce的手機流量統計分析

methods ica spec err reduce same new form sel 1，代碼 package mr; import java.io.IOException; import org.apache.commons.lang.StringUtils;

Hadoop序列化-流量彙總案例

　　　　　　　　　　　　　　　　　　　　Hadoop序列化案例-流量彙總需求　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權宣告：原創作品，謝絕轉載！否則將追究法律責任。一.Hadoop序列

MapReduce的分割槽

一：分割槽Partitioner 在MapReduce中，通過指定分割槽，mapTask會將同一個分割槽的資料傳送到同一個reduce當中進行處理。也就是把相同型別的資料，傳送到同一個reductTask去處理。注意：分割槽需要在yarn叢集上執行，不能本地測試。二：程式碼實現

大資料教程（8.7）流量彙總排序的mr實現

上一章我們有講到一個mapreduce案例——移動流量排序，如果我們要將最後的輸出結果按總流量大小逆序輸出，該怎麼實現呢？本節博主將分享這個實現的過程。一、分析 &

使用MapReduce計算使用者流量使用情況

mapreduce任務排程理解map和reduce的資料流的資料結構專案地址：https://github.com/mouday/MapReduceDemo 參考使用Intellij Idea打包java為可執行jar包 Idea打包

流量彙總案例程式設計，

public class FlowCountMapper extends Mapper<LongWritable,Text,Text,FlowBean>{ public void map(LongWritable key, Text value, C

偽分散式執行Hadoop例項之yarn執行MapReduce例項

一、配置叢集配置yarn-env.sh檔案配置一下JAVA_HOME 配置yarn-site.xml  <property> <name>yarn.nodemanager.au

Hadoop的MapReduce例項講解—Python寫的WordCount Demo

MapReduce是hadoop這隻大象的核心，Hadoop 中，資料處理核心就是 MapReduce 程式設計模型。一個Map/Reduce 作業（job）通常會把輸入的資料集切分為若干獨立的資料塊，由 map任務（task）以完全並行的方式處理它們

執行一個mapreduce例項

本文改編自開啟因為參考文中步驟有部分執行不正確，所以自己記錄下自己的步驟，並將原因整理了下。 Score.java檔案下載 import java.io.IOException; import java.util.Iterator; import

Mapreduce例項-分組排重（group by distinct）

需要實現以下幾個類,程式碼太多，列了下主要程式碼，可根據排重資料的特徵判讀是否需要新增combiner來提速。public class GroupComparator implements RawComparator<MyBinaryKey> { @Over

【Hadoop】Windows 10 在Intellij IEDA本地執行Hadoop MapReduce例項

環境：作業系統：Windows 10 Hadoop版本：2.7.3 Java版本: 1.8 前期準備： 1. 配置hadoop環境。 2. 配置maven環境。 1.下載maven部署包apache-maven-3.5.3-

7.測試hadoop安裝成功與否，並跑mapreduce例項

start-all.sh 2.建立hdfs目錄 hadoop fs -mkdir /input 3.上傳檔案 hadoop fs -put /data/hadoop-2.6.5/README.txt /input/ 4.修改檔名稱 hadoop fs -mv /input/READ

【MapReduce例項】資料去重

一、例項描述資料去重是利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問等這些看似龐大的任務都會涉及資料去重。比如，輸入檔案 file1.txt，其內容如下： 2017-12-9 a 2017-12-10 b

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

剛剛研究了一下haoop官網單詞計數的例子，把詳細步驟解析貼在下面：準備工作： 1、haoop叢集環境搭建完成 2、新建一個檔案hello,並寫入2行單詞，如下： [[email protected] hadoop-2.6.0]# vi hello hello

MapReduce例項

本文參考http://michaelnielsen.org/blog/page/19/ 從MapReduce的經典例子—單詞統計開始。一個MapReduce job的輸入是一個（input_key, input_value)這樣的鍵值對集合。鍵值對集合可以

[hadoop]MapReduce例項之好友推薦（六）

一、定義好友檔案qq hadoop hello hdfs world tom cat cat dog hello world hello hdfs hadoop好友hello，hdfs好友worl

eclipse 執行MapReduce程式錯誤異常彙總(解決Map not fount)

錯誤一： Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class wordCount.wordCount

hodoop中使用MapReduce例項

網址： 1、http://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html 2、http://eric-gcm.

MapReduce例項淺析

Hadoop Map/Reduce是一個使用簡易的軟體框架，基於它寫出來的應用程式能夠執行在由上千個商用機器組成的大型叢集上，並以一種可靠容錯的方式並行處理上T級別的資料集。一個Map/Reduce 作業（job）通常會把輸入的資料集切分為若干獨立的資料塊，由 map任務（task）以完全並

Mapreduce例項---分割槽流量彙總

相關推薦