將MapReduce分析手機上網記錄的結果進行排序操作

阿新 • • 發佈：2018-12-16

1.編寫Java程式碼,並將其打包成jar包

在eclipse上建立個新的java專案,建立lib資料夾,將上次的jar同樣匯入進來

然後建立個TelBean類這裡實現了WritableComparable介面,就是序列化的比較,詳情查詢api文件

public interface Comparator比較功能，對一些物件的集合施加了一個整體排序。可以將比較器傳遞給排序方法（如Collections.sort或Arrays.sort ），以便對排序順序進行精確控制。比較器還可以用來控制某些資料結構（如順序sorted sets或sorted maps ），或對於不具有物件的集合提供的排序natural ordering 。通過比較c上的一組元素S的確定的順序對被認為是與equals一致當且僅當c.compare(e1, e2)==0具有用於S每e1和e2相同布林值e1.equals(e2)。

當使用能夠強制排序不一致的比較器時，應注意使用排序集（或排序圖）。假設具有顯式比較器c的排序集（或排序對映）與從集合S中繪製的元素（或鍵）一起使用。如果88446235254451上的c強制的排序與equals不一致，則排序集（或排序對映）將表現為“奇怪”。特別是排序集（或排序圖）將違反用於設定（或對映）的一般合同，其按equals定義。

例如，假設一個將兩個元件a和b ，使得(a.equals(b) && c.compare(a, b) != 0)到空TreeSet與比較c 。因為a和b與樹集的角度不相等，所以第二個add操作將返回true（並且樹集的大小將增加），即使這與Set.add方法的規範相反。

注意：這通常是一個好主意比較，也能實現java.io.Serializable，因為它們可能被用來作為排序的序列化資料結構的方法（如TreeSet ， TreeMap ）。為了使資料結構成功序列化，比較器（如果提供）必須實現Serializable 。

對於數學上的傾斜，即限定了施加順序，給定的比較器c上一組給定物件的S強加關係式為：

{(x, y) such that c.compare(x, y) <= 0}. 這個總訂單的商是： {(x, y) such that c.compare(x, y) == 0}. 它從合同compare，該商數是S的等價關係緊隨其後，而強加的排序是S，總訂單。當我們說S上的c所規定的順序與等於一致時，我們的意思是排序的商是由物件’ equals(Object)方法定義的等價關係： {(x, y) such that x.equals(y)}. 與Comparable不同，比較器可以可選地允許比較空引數，同時保持對等價關係的要求。

此介面是成員Java Collections Framework 。

從以下版本開始： 1.2 另請參見： Comparable ， Serializable

package com.zy.hadoop.entity;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.WritableComparable;

public class TelBean implements WritableComparable<TelBean>{
	
	private String tel;
	private long upPayLoad;
	private long downPayLoad;
	private long totalPayLoad;
	
	
	
	public String getTel() {
		return tel;
	}

	public void setTel(String tel) {
		this.tel = tel;
	}

	public long getUpPayLoad() {
		return upPayLoad;
	}

	public void setUpPayLoad(long upPayLoad) {
		this.upPayLoad = upPayLoad;
	}

	public long getDownPayLoad() {
		return downPayLoad;
	}

	public void setDownPayLoad(long downPayLoad) {
		this.downPayLoad = downPayLoad;
	}

	public long getTotalPayLoad() {
		return totalPayLoad;
	}

	public void setTotalPayLoad(long totalPayLoad) {
		this.totalPayLoad = totalPayLoad;
	}

	public TelBean(String tel, long upPayLoad, long downPayLoad, long totalPayLoad) {
		super();
		this.tel = tel;
		this.upPayLoad = upPayLoad;
		this.downPayLoad = downPayLoad;
		this.totalPayLoad = totalPayLoad;
	}

	public TelBean() {
		super();
		// TODO Auto-generated constructor stub
	}

	@Override
	public String toString() {
		return  tel + "\t" + upPayLoad + "\t" + downPayLoad + "\t"
				+ totalPayLoad ;
	}

	//反序列化的過程
	@Override
	public void readFields(DataInput in) throws IOException {
		this.tel = in.readUTF();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
		this.totalPayLoad = in.readLong();
	}

	//序列化的過程
	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeUTF(this.tel);
		out.writeLong(this.upPayLoad);
		out.writeLong(this.downPayLoad);
		out.writeLong(this.totalPayLoad);
	}
	//compare比較,詳情查閱java的api文件
	@Override
	public int compareTo(TelBean bean) {
		// TODO Auto-generated method stub
		return (int)(this.totalPayLoad-bean.getTotalPayLoad());
	}

}

然後在mr包下依次建立SortMapper,SortReducer,SortCount

SortMapper

package com.zy.hadoop.mr2;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import com.zy.hadoop.entity.TelBean;

public class SortMapper extends Mapper<LongWritable, Text, TelBean, NullWritable>{

	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, TelBean, NullWritable>.Context context)
			throws IOException, InterruptedException {
		//value ,第一mr出來的結果中的每一行
		String line = value.toString();
		//拆分字串"\t"
		String[] strs = line.split("\t");
		//直接通過下標取值
		//電話號碼
		
		String tel = strs[0];
		//上行流量
		long upPayLoad=Long.parseLong(strs[2]);
		//下行流量
		long downPayLoad=Long.parseLong(strs[3]);
		//總流量
		long totalPayLoad=Long.parseLong(strs[4]);
		//把去除的值封裝到物件中
		TelBean telBean = new TelBean(tel, upPayLoad, downPayLoad, totalPayLoad);
		//輸出k2,v2
		context.write(telBean, NullWritable.get());
	}

}

SortReducer

package com.zy.hadoop.mr2;

import java.io.IOException;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Reducer;

import com.zy.hadoop.entity.TelBean;

public class SortReducer extends Reducer<TelBean, NullWritable, TelBean, NullWritable>{

	@Override
	protected void reduce(TelBean arg0, Iterable<NullWritable> arg1,
			Reducer<TelBean, NullWritable, TelBean, NullWritable>.Context arg2)
			throws IOException, InterruptedException {
		arg2.write(arg0, NullWritable.get());
	}

	
}

SortCount

package com.zy.hadoop.mr2;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.zy.hadoop.entity.TelBean;

public class SortCount {

	public static void main(String[] args) throws Exception {
		// 1.獲取job
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		// 2.指定job使用的類
		job.setJarByClass(SortCount.class);

		// 3.設定Mapper的屬性
		job.setMapperClass(SortMapper.class);
		job.setMapOutputKeyClass(TelBean.class);
		job.setMapOutputValueClass(NullWritable.class);

		// 4.設定輸入檔案
		FileInputFormat.setInputPaths(job, new Path(args[0]));

		// 5.設定reducer的屬性
		job.setReducerClass(SortReducer.class);
		job.setOutputKeyClass(TelBean.class);
		job.setMapOutputValueClass(NullWritable.class);

		// 6.設定輸出資料夾,檢視結果儲存到hdfs資料夾中的位置
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7.提交 true 提交的時候列印日誌資訊
		job.waitForCompletion(true);
	}

}

接下來將專案打包成jar包,上傳到虛擬機器/usr/tmp下

虛擬機器上執行jar包,檢視執行結果

啟動hadoop叢集服務

start-all.sh

檢視是否成功

我們將之前處理過一次的檔案/tel1/part-r-00000(/tel2下的進行過分割槽了,所以不進行處理)作為原始檔進行分析排序

hadoop jar tel_3.jar /tel/part-r-00000 /tel3

等待執行完畢檢視結果

結果如下

[[email protected] tmp]# hadoop fs -ls /
hadoopFound 5 items
-rw-r--r--   1 root supergroup       2315 2018-10-19 19:33 /tel.log
drwxr-xr-x   - root supergroup          0 2018-10-19 19:59 /tel1
drwxr-xr-x   - root supergroup          0 2018-10-19 20:10 /tel2
drwxr-xr-x   - root supergroup          0 2018-10-19 20:47 /tel3
drwx------   - root supergroup          0 2018-10-19 19:58 /tmp
[[email protected] tmp]# hadoop fs -ls /tel3
Found 2 items
-rw-r--r--   1 root supergroup          0 2018-10-19 20:47 /tel3/_SUCCESS
-rw-r--r--   1 root supergroup        477 2018-10-19 20:47 /tel3/part-r-00000
[[email protected] tmp]# hadoop fs -cat /tel3/part-r-00000
13926251106	240	0	240
13826544101	264	0	264
13480253104	180	180	360
13926435656	132	1512	1644
15989002119	1938	180	2118
18211575961	1527	2106	3633
13560436666	2232	1908	4140
13602846565	1938	2910	4848
84138413	4116	1432	5548
15920133257	3156	2936	6092
13922314466	3008	3720	6728
15013685858	3659	3538	7197
13660577991	6960	690	7650
13560439658	2034	5892	7926
18320173382	9531	2412	11943
13726238888	2481	24681	27162
13925057413	11058	48243	59301
13502468823	7335	110349	117684

這就是MapReduce進行簡單的資料分析

不過hadoop叢集的datanode節點如果過多會導致速度慢 , 接下來會介紹zookeeper的高效hadoop叢集如何搭建

將MapReduce分析手機上網記錄的結果進行排序操作

1.編寫Java程式碼,並將其打包成jar包在eclipse上建立個新的java專案,建立lib資料夾,將上次的jar同樣匯入進來然後建立個TelBean類這裡實現了WritableComparable介面,就是序列化的比較,詳情查詢api文件 pub

hadoop[10]-對彙總結果進行排序

FlowBean： package com.wange.flowcountsort; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput

用最快速度將0*10範圍內的數進行排序

@Test public void test() { int[] array = {9,0,1, 2, 5, 8, 1, 5, 1, 4, 6, 5, 4, 5, 4, 1, 5, 10}; System.out.println(Arrays.toString(

python專案篇-Django中對資料查詢結果進行排序的方法

在Django 應用中，根據某欄位的值對檢索結果排序，比如說，按字母順序。那麼，使用 order_by() 這個方法就可以搞定了。 >>> Publisher.objects.order_by("name") [<Publisher: Apress>,

OutSystems 中，利用聚合對結果進行排序

大多數情況下，記錄會按照某些順序列在螢幕上，以便於閱讀或幫助更快地查詢資訊。在 OutSystems 中，聚合允許對返回的記錄進行排序，排序可以是固定的或動態的。對結果進行固定排序：在聚合中，開啟要排序的屬性選單；選擇A-Z作為升序或Z-A作為降序；

mongoose對查詢結果進行排序

前面的學習已經可以刷出資料了，不過通過迴圈取出來後，發現並不是按照想象中的按先後順序列出來的，而是按照資料在資料庫中存放的順序刷出來的。如圖，mongodb儲存資料並沒有按照我新增資料的先後順序，而是按照了author這個欄位來的，因此前臺刷出的資料也是安裝author來

MapReduce 統計手機使用者的上行流量，下行流量，總流量，並對輸出的結果進行倒序排序。（二），劃分省份，輸出到不同的檔案

在（一）的基礎上，寫一個自己的partitioner就好了。分割槽的預設實現HashPartitioner，它根據key的hashcode和Interger. 在Reduce過程中，可以根據實際需求（比如按某個維度進行歸檔，類似於資料庫的分組），把Map完的資

MapReduce 統計手機使用者的上行流量，下行流量，總流量，並對輸出的結果進行倒序排序。（一）

首先，要知道hadoop自帶的LongWritable 是沒辦法儲存三個變數，即使用者的上行流量，下行流量，總流量。這個時候，沒辦法，你就要去寫一個屬於你自己的介面，去實現能夠放入這三個資料。 MapReduce中傳輸自定義資料型別（Bean->setter+

MapReduce 統計手機使用者的上行流量，下行流量，總流量，並對輸出的結果進行倒序排序。

首先，要知道hadoop自帶的LongWritable 是沒辦法儲存三個變數，即使用者的上行流量，下行流量，總流量。這個時候，沒辦法，你就要去寫一個屬於你自己的介面，去實現能夠放入這三個資料。這裡定義為flowbean，實現WritableComparable

基於MapReduce的手機流量統計分析

methods ica spec err reduce same new form sel 1，代碼 package mr; import java.io.IOException; import org.apache.commons.lang.StringUtils;

手機上網占多大流量？WiFi要不要進行限速？

無線上網帶寬占用很多企業、公共場所都會給員工或者顧客提供WiFi服務，但是網管人員很快會發現大部分人都會抱怨WiFi速度太慢沒法用，明明是100M的專線，速度卻和撥號速度差不多。這究竟是什麽原因呢？今天我們就從網絡應用的角度來分析下，手機上網究竟需要多大的流量。無線的速度，還取決於無線AP的信號強度、信道幹

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

weka使用教程3--對分類結果進行分析

1 Summary Correctly Classified Instances :正確分類的例項 Incorrectly Classified Instances ：錯誤分類的例項 Kappa statistic：就是假設有兩個相互獨立的人分別將N個物品分成C個相互獨

將ansible執行結果進行處理，變成excel

ansible輸出結果，統計起來很麻煩，將結果變為excel，並且按照結果統計彙總，可讀性會強很多 ansible輸出結果： ansible輸出結果 192.168.250. 250| SUCCESS | rc=0 >> Selinux check succe

Scala--Spark將某網站的爬蟲記錄進行整理

設計思路： 1.將ip截取出來（多種方式）用map組成二元組（注意區分map，flatmap）將相同ip出現次數統計出來分析得出爬蟲ip 2.將多次重複ip且訪問密集的設為訪問黑名單 3.將同一時間訪問某網站的ip整理出來 package Test1225 import org.

在一個列表中儲存以下元素：apple,grape,banana,pear 3.1 返回集合中的最大的和最小的元素 3.2 將集合進行排序，並將排序後的結果列印在控制檯上 [必做題]

比較類 public class name implements Comparator<f>{ @Override public int compare(f o1, f o2) { return o2.getName().compareTo(o1.get

Loadrunner效能測試結果進行分析

上有一篇講解了效能的重要指標代表什麼，下面對LoadRunner效能測試結果分析思路做一下介紹：效能測試結果分析思路： 1. 關注Transaction Summary模組平均響應時間：當標準差std比較小的時候，選擇事務平均響應時間 90%響應時間：當

對sklearn訓練結果進行儲存（joblib或pickle或cPickle的使用問題記錄）

>>> from sklearn import svm >>> from sklearn import datasets >>> clf =

利用隨機森林和梯度替身決策樹對titanic資料進行分類，並對結果進行分析

import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectorizer from skle

【PANDA】利用已有的分割結果進行DTI腦區結構連線分析

PANDA為我們提供了一整套關於DTI影象預處理，fiber tracking，利用fsl進行去顱骨分割操作，基於分割模板的network construction等等操作。但是由於模板限制，我們目前只能使用以下幾個圖譜進行分割槽形容。為了解決這個問題，我發現可以直接載入

將MapReduce分析手機上網記錄的結果進行排序操作

1.編寫Java程式碼,並將其打包成jar包

SortMapper

虛擬機器上執行jar包,檢視執行結果

相關推薦