MR例子（統計各個手機號在某段時間內產生的總流量）

阿新 • • 發佈：2019-02-04

目的：統計各個手機號在某段時間類產生的總流量

準備檔案（已經上傳到hdfs上檔名data.txt）
這裡寫圖片描述

上圖中對應的欄位如下圖
這裡寫圖片描述

檔案及程式碼分析

所給的檔案是每一個使用者每一次上網產生的流量，先如今需要將相同使用者進行聚合。
最後輸出的結果欄位：手機號上行總流量下行總流量總流量
map的輸入輸出都是以key value 形式存在。輸入的鍵值對為K1為整數 value為字串，輸出的鍵值對K2為字串（手機號），輸出相當於上行總流量，下行總流量，總流量的list。所以我們用一個物件（DataBean）來儲存它們。
reduce的輸入就是map的輸出（經過shuffle處理，這裡不做詳細說明），reduce輸出的形式為key為手機號（字串），value為物件（DataBean）的結果就是我們最後想要的結果。
map進行的業務處理就是取出目標檔案中的四個欄位，然後進行拆分
reduce進行的業務處理，主要是對map的輸出中的DataBean裡面的流量進行求和，最後輸出，下面直接上程式碼。

DataBean

package cn.master1.hadoop.mr.dc;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class DataBean implements Writable{

    private String telNo;

    private long upPayLoad;

    private long downPayLoad;

    private 
 long totalPayLoad;



    public DataBean() {}

    public DataBean(String telNo, long upPayLoad, long downPayLoad) {
        this.telNo = telNo;
        this.upPayLoad = upPayLoad;
        this.downPayLoad = downPayLoad;
        this.totalPayLoad = upPayLoad + downPayLoad;
    }

    @Override
    public 
 String toString() {
        return this.upPayLoad + "/t" + this.downPayLoad + "/t" + this.totalPayLoad;
    }

    public void write(DataOutput out) throws IOException {
        out.writeUTF(telNo);
        out.writeLong(upPayLoad);
        out.writeLong(downPayLoad);
        out.writeLong(totalPayLoad);
    }

    public void readFields(DataInput in) throws IOException {
        this.telNo = in.readUTF();
        this.upPayLoad = in.readLong();
        this.downPayLoad = in.readLong();
        this.totalPayLoad = in.readLong();
    }

    public String getTelNo() {
        return telNo;
    }

    public void setTelNo(String telNo) {
        this.telNo = telNo;
    }

    public long getUpPayLoad() {
        return upPayLoad;
    }

    public void setUpPayLoad(long upPayLoad) {
        this.upPayLoad = upPayLoad;
    }

    public long getDownPayLoad() {
        return downPayLoad;
    }

    public void setDownPayLoad(long downPayLoad) {
        this.downPayLoad = downPayLoad;
    }

    public long getTotalPayLoad() {
        return totalPayLoad;
    }

    public void setTotalPayLoad(long totalPayLoad) {
        this.totalPayLoad = totalPayLoad;
    }
}

package cn.master1.hadoop.mr.dc;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DataCount {

    public static void main(String[] args) throws Exception {
         Configuration conf = new Configuration();
         Job job = Job.getInstance(conf);

         job.setJarByClass(DataCount.class);

         job.setMapperClass(DCMapper.class);
         /*當k2 v2 和 k3 v3 型別一一對應時，此行和下面一行可以省略。*/
         job.setMapOutputKeyClass(Text.class);
         job.setMapOutputValueClass(DataBean.class);
         FileInputFormat.setInputPaths(job, new Path(args[0]));

         job.setReducerClass(DCReducer.class);
         job.setOutputKeyClass(Text.class);
         job.setOutputValueClass(DataBean.class);
         FileOutputFormat.setOutputPath(job, new Path(args[1]));

         job.waitForCompletion(true);
    }

    public static class DCMapper extends Mapper<LongWritable, Text, Text, DataBean>{

        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, DataBean>.Context context)
                throws IOException, InterruptedException {
            //接收資料
            String line = value.toString();
            String[] fileds = line.split("/t");
            String telNo = fileds[1];
            long up = Long.parseLong(fileds[8]);
            long down = Long.parseLong(fileds[9]);
            DataBean bean  = new DataBean(telNo, up, down);
            context.write(new Text(telNo), bean);
        }

    }

    public static class DCReducer extends Reducer<Text, DataBean, Text, DataBean>{

        @Override
        protected void reduce(Text key, Iterable<DataBean> v2s, Context context)
                throws IOException, InterruptedException {
            long up_sum = 0;
            long down_sum = 0;
            for(DataBean bean : v2s){
                up_sum += bean.getUpPayLoad();
                down_sum += bean.getDownPayLoad();
            }
            DataBean bean = new DataBean("", up_sum, down_sum);
            context.write(key, bean);
        }
    }
}

jar包

打成jar包（不指定入口程式）命名為examples.jar，放到虛擬機器跟目錄下，然後執行
hadoop jar /root/examples.jar cn.master1.hadoop.mr.dc.DataCount /data.txt /dataout
cn.master1.hadoop.mr.dc.DataCount指定執行的入口程式 /data.txt 目標檔案（存在hdfs上） /dataout輸出檔案（存放到hdfs上）

最後輸出結果如下
這裡寫圖片描述

下面簡單說一說MR的執行流程和hadoop的序列化

MR執行流程

(1).客戶端提交一個mr的jar包給RM(resourceManage)(提交方式：hadoop jar ...)
(2).JobClient通過RPC和RM進行通訊，返回一個存放jar包的地址（HDFS）和jobId
(3).client將jar包寫入到HDFS當中(path = hdfs上的地址 + jobId)
(4).開始提交任務(任務的描述資訊，不是jar, 包括jobid，jar存放的位置，配置資訊等等)
(5).RM進行初始化任務
(6).讀取HDFS上的要處理的檔案，開始計算輸入分片，每一個分片對應一個NM(nodeManage)
(7).NM通過心跳機制領取任務（任務的描述資訊）
(8).下載所需的jar，配置檔案等。
(9).NM啟動一個java child子程序，用來執行具體的任務（MapperTask或ReducerTask）
(10).將結果寫入到HDFS當中。

hadoop序列化

序列化的概念
序列化（Serialization）是指把結構化物件轉化為位元組流。
反序列化（Deserialization）是序列化的逆過程。即把位元組流轉回結構化物件。
Java序列化（java.io.Serializable）

hadoop序列化並不是用的java自帶的序列化機制，java的序列化機制運用的比較廣泛，所以序列化和反序列化時儲存的東西過多，效率較低，而hadoop在序列化時，只需要儲存資料即可，因為只需要傳輸資料。hadoop具有特定的序列化機制。

序列化格式特點：
緊湊：高效使用儲存空間。
快速：讀寫資料的額外開銷小
可擴充套件：可透明地讀取老格式的資料
互操作：支援多語言的互動

hadoop的序列化格式Writable
更多詳細介紹

MR例子（統計各個手機號在某段時間內產生的總流量）

目的：統計各個手機號在某段時間類產生的總流量準備檔案（已經上傳到hdfs上檔名data.txt）上圖中對應的欄位如下圖檔案及程式碼分析所給的檔案是每一個使用者每一次上網產生的流量，先如今需要將相同使用者進行聚合。

Git統計某段時間內的程式碼量

對當前分支，統計'2018-08-25'~'2018-12-31'時間內的程式碼量命令： git log --since='2018-08-25' --until='2018-12-31' --format='%aN' |&

java根據日期獲取周幾和獲取某段時間內周幾的日期

整理兩個日期的方法。根據日期獲取當天是周幾 /** * 根據日期獲取當天是周幾 * @param datetime 日期 * @return 周幾 */ public static String dateToWeek(String datetime

JAVA 獲取某段時間內的所有日期集合

獲取指定日期 public static void main(String[] args) { SimpleDateFormat sdf = new SimpleDateFo

如何快速擷取某段時間內的日誌

在排除故障時，需要分析發生故障的原因，避免再次出現同樣的問題，需要對日誌進行分析，擷取故障前後時間段的日誌。通常用正則表示式來獲取某段時間的內的日誌，比較繁瑣。可以通過awk方便簡捷的實現。我這裡以擷取nginx訪問日誌為例：檢視21/Jul/2014:14:37

jedis 實現 redis 統計一個使用者在一段時間內的登入次數

import java.util.BitSet; import redis.clients.jedis.Jedis; public class SetBitTest {public static void main(String[] args) {// TODO Auto

JAVA獲取某段時間內的所有日…

import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Calendar; import java.util.Date; import java.util.List; public class FindDa

Mysql聯表查詢、查詢近期某段時間內的資料等

最近使用mysql時用到的一些功能，此處做記錄方便日後查閱。聯表查詢 1. 引用兩個表 SELECT Persons.LastName, Persons.FirstName, Orders.OrderNo FROM Persons, Orders W

php按周取時間段&&PHP獲取指定時間段之間的年,月,天,時,分,秒&php獲取某段時間內每個月的方法，返回由這些月份組成的陣列

<?php PHP獲取指定時間段之間的年,月,天,時,分,秒 Class Utils { /** * format MySQL DateTime (YYYY-MM-DD hh:mm:ss) 把mysql中查找出來的資料格式轉換成時間秒數

jquery正則表示式驗證糾正版（手機號、身份證號、中文名稱）

最新福利：領取阿里雲1000通用代金券 <script type="text/javascript"> // 驗證中文名稱 function isChinaName(name) { var pattern = /^[\u4E00-\u9FA5]{1,6}$/; retu

jquery正則表示式驗證（手機號、身份證號、中文名稱）

數字判斷方法:isNaN()函式 test()方法判斷字串中是否匹配到正則表示式內容，返回的是boolean值 ( true / false ) // 驗證中文名稱 function isChinaName(name) { var pattern

C語言一些例子（九九乘法表，楊輝三角形，九宮演算法）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

mysql統計某段日期中某段時間的資料

中間的動態拼接是為了防止隔天查詢（如17：30-8：30），當然就收資料後要進行處理讓後在傳入 SELECT count(DISTINCT barcode) AS count,DATE_FORMAT(date, '%Y-%m-%d') AS ti FROM ag_cpparts WHERE DATE_

假如你不小心幹掉了系統，你該怎麼辦？（一次手賤的記錄 ~ Ubuntu and Python3.6）

前言多年未犯低階錯誤，今天犯了個不大不小的錯誤，記錄下生活點滴吧今天早上腦海裡想了下，如果電腦掛了我要備份哪些東西？然後中午休息的時候就列了一下，沒想到晚上就悲劇了... 這個是中午寫的： ## If I to bak **`瀏覽器書籤備份`** ~/桌面（**先push到github**） ~/下載（

HttpClient 傳送Post Get請求例子（包含設定請求頭資訊和獲取返回頭資訊）

package com.test.action; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.commons.httpclient.DefaultHt

javaweb之Session簡單例子（兩個頁面一個存資料，一個取資料）和session的一些基本內容

package test.session; import java.io.IOException; import javax.servlet.ServletException; import javax.servlet.http.Cookie; import javax

PHP二維陣列去重的方法（保留各個鍵值的同時去除重複的項）-- 二維陣列的唯一性

對於如下二維陣列，要求對其進行去重： $arr = array( '0'=>array( 'name'=>'james', 'age'=>30,

android service 例子（電話錄音和獲取系統當前時間）

關於android service 的詳解請參考： android四大元件--android service詳解，下面將用兩個例項具體呈現Android Service的兩種實現。一個是startService()方法來啟動一個服務，這裡用電話錄音的例子；另一個是bin

sql 通過某段時間求得改段時間內的工作時長，排除工作日

好的 char rup and while 思路 then task 工作日 CREATE FUNCTION Fun_GetTotalHourBySomeTime(@TaskId NVARCHAR(30),@Bu_trupstartDate NVARCHAR(50),@Bu

線段樹詳解（單點更新與成段更新\區間更新操作）

本文純屬原創，轉載請註明出處，謝謝。距離第一次接觸線段樹已經一年多了，再次參加ACM暑假集訓，這一次輪到我們這些老傢伙們給學弟學妹們講解線段樹了，所以就自己重新把自己做過的題目看

MR例子（統計各個手機號在某段時間內產生的總流量）

檔案及程式碼分析

jar包

MR執行流程

hadoop序列化

相關推薦