Mapreduce之TopN案例TreeMap實現

阿新 • • 發佈：2019-01-14

1．需求

對需求2.3輸出結果進行加工，輸出流量使用量在前10的使用者資訊

（1）輸入資料

13470253144   180   180   360
13509468723   7335   110349   117684
13560439638   918   4938   5856
13568436656   3597   25635   29232
13590439668   1116   954   2070
13630577991   6960   690   7650
13682846555   1938   2910   4848
13729199489   240   0   240
13736230513   2481   24681   27162
13768778790   120   120   240
13846544121   264   0   264
13956435636   132   1512   1644
13966251146   240   0   240
13975057813   11058   48243   59301
13992314666   3008   3720   6728
15043685818   3659   3538   7197
15910133277   3156   2936   6092
15959002129   1938   180   2118
18271575951   1527   2106   3633
18390173782   9531   2412   11943
84188413   4116   1432   5548

（2）輸出資料

13509468723   7335   110349   117684
13975057813   11058   48243   59301
13568436656   3597   25635   29232
13736230513   2481   24681   27162
18390173782   9531   2412   11943
13630577991   6960   690   7650
15043685818   3659   3538   7197
13992314666   3008   3720   6728
15910133277   3156   2936   6092
13560439638   918   4938   5856
2．需求分析

3．實現程式碼

（1）編寫FlowBean類

package com.demo.mr.top;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class FlowBean implements WritableComparable<FlowBean>{

private long upFlow;

private long downFlow;

private long sumFlow;

public FlowBean() {

super();

}

public FlowBean(long upFlow, long downFlow) {

super();

this.upFlow = upFlow;

this.downFlow = downFlow;

}

@Override

public void write(DataOutput out) throws IOException {

out.writeLong(upFlow);

out.writeLong(downFlow);

out.writeLong(sumFlow);

}

@Override

public void readFields(DataInput in) throws IOException {

upFlow = in.readLong();

downFlow = in.readLong();

sumFlow = in.readLong();

}

public long getUpFlow() {

return upFlow;

}

public void setUpFlow(long upFlow) {

this.upFlow = upFlow;

}

public long getDownFlow() {

return downFlow;

}

public void setDownFlow(long downFlow) {

this.downFlow = downFlow;

}

public long getSumFlow() {

return sumFlow;

}

public void setSumFlow(long sumFlow) {

this.sumFlow = sumFlow;

}

@Override

public String toString() {

return upFlow + "\t" + downFlow + "\t" + sumFlow;

}

public void set(long downFlow2, long upFlow2) {

downFlow = downFlow2;

upFlow = upFlow2;

sumFlow = downFlow2 + upFlow2;

}

@Override

public int compareTo(FlowBean bean) {

int result;

if (this.sumFlow > bean.getSumFlow()) {

result = -1;

}else if (this.sumFlow < bean.getSumFlow()) {

result = 1;

}else {

result = 0;

}

return result;

}

}

（2）編寫TopNMapper類

package com.demo.mr.top;

import java.io.IOException;

import java.util.Iterator;

import java.util.TreeMap;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class TopNMapper extends Mapper<LongWritable, Text, FlowBean, Text>{

// 定義一個TreeMap作為儲存資料的容器（天然按key排序）

private TreeMap<FlowBean, Text> flowMap = new TreeMap<FlowBean, Text>();

private FlowBean kBean;

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

kBean = new FlowBean();

Text v = new Text();

// 1 獲取一行

String line = value.toString();

// 2 切割

String[] fields = line.split("\t");

// 3 封裝資料

String phoneNum = fields[0];

long upFlow = Long.parseLong(fields[1]);

long downFlow = Long.parseLong(fields[2]);

long sumFlow = Long.parseLong(fields[3]);

kBean.setDownFlow(downFlow);

kBean.setUpFlow(upFlow);

kBean.setSumFlow(sumFlow);

v.set(phoneNum);

// 4 向TreeMap中新增資料

flowMap.put(kBean, v);

// 5 限制TreeMap的資料量，超過10條就刪除掉流量最小的一條資料

if (flowMap.size() > 10) {

// flowMap.remove(flowMap.firstKey());

flowMap.remove(flowMap.lastKey());

}

}

@Override

protected void cleanup(Context context) throws IOException, InterruptedException {

// 6 遍歷treeMap集合，輸出資料

Iterator<FlowBean> bean = flowMap.keySet().iterator();

while (bean.hasNext()) {

FlowBean k = bean.next();

context.write(k, flowMap.get(k));

}

}

}

（3）編寫TopNReducer類

package com.demo.mr.top;

import java.io.IOException;

import java.util.Iterator;

import java.util.TreeMap;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class TopNReducer extends Reducer<FlowBean, Text, Text, FlowBean> {

// 定義一個TreeMap作為儲存資料的容器（天然按key排序）

TreeMap<FlowBean, Text> flowMap = new TreeMap<FlowBean, Text>();

@Override

protected void reduce(FlowBean key, Iterable<Text> values, Context context)throws IOException, InterruptedException {

for (Text value : values) {

FlowBean bean = new FlowBean();

bean.set(key.getDownFlow(), key.getUpFlow());

// 1 向treeMap集合中新增資料

flowMap.put(bean, new Text(value));

// 2 限制TreeMap資料量，超過10條就刪除掉流量最小的一條資料

if (flowMap.size() > 10) {

// flowMap.remove(flowMap.firstKey());

flowMap.remove(flowMap.lastKey());

}

}

}

@Override

protected void cleanup(Reducer<FlowBean, Text, Text, FlowBean>.Context context) throws IOException, InterruptedException {

// 3 遍歷集合，輸出資料

Iterator<FlowBean> it = flowMap.keySet().iterator();

while (it.hasNext()) {

FlowBean v = it.next();

context.write(new Text(flowMap.get(v)), v);

}

}

}

（4）編寫TopNDriver類

package com.demo.mr.top;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TopNDriver {

public static void main(String[] args) throws Exception {

args = new String[]{"e:/output1","e:/output3"};

// 1 獲取配置資訊，或者job物件例項

Configuration configuration = new Configuration();

Job job = Job.getInstance(configuration);

// 6 指定本程式的jar包所在的本地路徑

job.setJarByClass(TopNDriver.class);

// 2 指定本業務job要使用的mapper/Reducer業務類

job.setMapperClass(TopNMapper.class);

job.setReducerClass(TopNReducer.class);

// 3 指定mapper輸出資料的kv型別

job.setMapOutputKeyClass(FlowBean.class);

job.setMapOutputValueClass(Text.class);

// 4 指定最終輸出的資料的kv型別

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(FlowBean.class);

// 5 指定job的輸入原始檔案所在目錄

FileInputFormat.setInputPaths(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

// 7 將job中配置的相關引數，以及job所用的java類所在的jar包，提交給yarn去執行

boolean result = job.waitForCompletion(true);

System.exit(result ? 0 : 1);

}

}

Mapreduce之TopN案例TreeMap實現

1．需求對需求2.3輸出結果進行加工，輸出流量使用量在前10的使用者資訊（1）輸入資料

Mapreduce之topN簡單實現

1．需求對需求2.3輸出結果進行加工，輸出流量使用量在前10的使用者資訊（1）輸入資料

Unity3D Shader 入門之簡單案例的實現（通過法線實現顏色變化）

在沒有接觸Unity3D Shader 之前，總感覺shader特別神奇，因為聽說是對渲染流水線進行程式設計，就是對GPU進行程式設計。聽著特別高大上。這不，最近剛剛接觸Shader,學了幾個小案例，然後本文作為學習筆記將這個小案例的實現記錄下來。筆者也是剛開始學習shader 沒幾天。在剛開

MapReduce之MapJoin案例

@[toc] ## **使用場景** Map Join 適用於一張表十分小、一張表很大的場景。 ## **優點** 思考：在Reduce 端處理過多的表，非常容易產生資料傾斜。怎麼辦？在Map端快取多張表，提前處理業務邏輯，這樣增加Map 端業務，減少Reduce 端資料的壓力，儘可能的減少資料傾斜。

MapReduce之join演算法案例實現

1、需求：訂單資料表t_order：id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品資訊表t_productid pname

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

MapReduce程序之TopN問題（排行榜問題）

大數據 Hadoop MapReduce Java [toc] MapReduce程序之TopN問題（排行榜問題）需求有下面的文本文件： yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/topn$ cat senventeen_a.txt 1,

【android學習筆記】activity間的通訊案例之高德地圖實現天氣查詢

【概述】app實現天氣查詢是再正常不過的功能了，又因為往往不止一個activity去獲取資料，那就想到封裝一個類，需要時去呼叫獲取即可。【注】因為看文件還有點懵，故將自己抓腦寫的程式碼記錄下，以便查詢【思路】activity傳送請求--獲取地址--根據地址獲取天氣

MapReduce之自定義WordCount案例

在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數。 1.分析 mapper階段：將mapstack 傳給我們的文字資訊內容先轉換成string。根據空格將一行切分成單詞。將單詞輸出為<單詞，1>的格式。 reducer階段

MapReduce初級經典案例實現

1、資料去重　　 "資料去重"主要是為了掌握和利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都會涉及資料去重。下面就進入這個例項的MapReduce程式設計。 1.1 例項描述　　

mapreduce典型應用案例之倒排索引

一、倒排索引的介紹通俗的講，就是根據單詞找到包含這個單詞的所有文件。二、mapreduce實現框架 1、首先要確定map、reduce、combiner中的key和value是什麼型別 2、然後確定key和value具體是什麼？ Map ： key為單詞+檔名 value為

案例：java陣列應用之雙色球彩票案例的實現

喜歡玩彩票的朋友們應該很多人都瞭解過雙色球，也都希望通過500萬的大獎改變自己的人生，今天我們就來利用java中的陣列實現一個雙色球的案例。雙色球彩票的規則是這樣的，中獎號碼是5個紅球和1個藍球，紅球從33個裡邊隨機選出5個，藍球從16個裡邊選出一個。

iptables之mangle表應用實現策略路由+（案例）

iptables之mangle表應用實現策略路由；前面的文章已經講解了：mangle表主要用於修改資料包的TOS（Type Of Service，服務型別）、TTL（Time To Live，生存週期）指以及為資料包設定Mark標記，以實現Qos(Quality

大數據學習之MapReduce編程案例二流量日誌統計 10

本地編寫代碼效果 system 持久 window highlight 手機 img 每一個用戶的統計總流量一：編寫代碼之前。先了解一下hadoop中的序列化 JAVA 類型 HADOOP 類型 int　　　　 IntWritable

大資料案例（七）——MapReduce之map端表合併（Distributedcache）

一、前期準備由於本案例是在案例六的基礎上做的優化，所以需求及資料輸入輸出請參考案例六；初次之外需要拷貝pd.txt檔案在本地電腦J盤的根目錄下以做參考本案例只需要上傳order.txt到HDFS上即可-"/user/hadoop/order_productv2/input" 二

Hadoop實戰-MapReduce之max、min、avg統計(六)

next combine output fileinput private pub eof pri use 1、數據準備： Mike,35 Steven,40 Ken,28 Cindy,32 2、預期結果 Max　　40 Min　　 28 Avg 33 3、M

登錄、註冊案例集合實現

登錄註冊登陸註冊案例分析：我們現在寫代碼需要面向對象，我們必須先找到能完成某個功能的類，接著調用裏面的方法完成它登陸註冊案例中的類：用戶類成員變量：用戶名，密碼成員方法：登陸，註冊功能

用戶登錄註冊之驗證碼技術實現

function 驗證碼用戶登錄用戶名 change 對於一些惡意強暴破解密碼的行為（即通過硬性嘗試用戶名密碼進行破解），可以采用驗證碼對其進行抵禦，對於一些程序可以識別驗證碼，則需要對驗證碼形式進行多樣化設計。用戶登錄時設置驗證碼代碼實現：頁面<script type=

Android之使用weight屬性實現控件的按比例分配空間

今天 text wrap 在底部 net ack 實現 sans com 從今天開始,把看書時候的知識點整理成博客,這個比較簡單,預計有經驗的都用過,weight屬性在做Android布局的時候,常常遇到須要幾個控件按比例分配空間的情況比方下圖效果在底部設置兩個butt

Nginx 服務器之Nginx與tomcat實現負載均衡

nobody 服務器 listen server events 本文講解我們如何使用Nginx做反向帶服務器，實現nginx與tomcat服務器集群做負載均衡。一、nginx與tomcat實現負載均衡1、在/usr/local/ngnix/conf 創建文件 nginx-tomcat.