mapreduce 統計PV案例

阿新 • • 發佈：2018-04-10

大數據 hadoop

理解網站基本指標幾個工具
編寫mapreduce 模板PV程序
自定義計數器，對Mapreduce 進行DEBUG 調試

一 .網站基本指標

1.1 PV

  PV(page view)，即頁面瀏覽量，或點擊量;通常是衡量一個網絡新聞頻道或網站甚至一條網絡新聞的主要指標。

  即：一個訪問者在24小時(0點到24點)內到底看了你網站幾個頁面。強調:同一個人瀏覽你網站同一個頁面，不重復計算pv量，點100次也算1次。pv就是一個訪問者打開了你的幾個頁面。

1.2 UV


    uv(unique visitor)，指訪問某個站點或點擊某條新聞的不同IP地址的人數。

在同一天內，uv只記錄第一次進入網站的具有獨立IP的訪問者，在同一天內再次訪問該網站則不計數。獨立IP訪問者提供了一定時間內不同觀眾數量的統計指標，而沒有反應出網站的全面活動。

1.3 UIP

    Unique Visitor ：指訪問某個站點或點擊某條新聞的不同IP地址的人數。
　　在同一天內，uv只記錄第一次進入網站的具有獨立IP的訪問者，在同一天內再次訪問該網站則不計數。獨立IP訪問者提供了一定時間內不同觀眾數量的統計指標，而沒有反應出網站的全面活動。

二. 編寫mapreduce 模板PV程序

2.1 java 代碼

package org.apache.hadoop.studyhdfs.mapredce;

import java.io.IOException;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 
 * @author zhangyy
 *
 */
public class WebPvMapReduce extends Configured implements Tool{

    // step 1: mapper class
    /**
     * public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
     */
    public static class WebPvMapper extends //
        Mapper<LongWritable,Text,IntWritable,IntWritable>{
        // map output value
        private final static IntWritable mapOutputValue = new IntWritable(1) ;
        // map output key
        private IntWritable mapOutputKey = new IntWritable();

        @Override
        public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // line value
            String lineValue = value.toString();

            // split
            String[] values = lineValue.split("\\t") ;

            if(30 > values.length){
                context.getCounter("WEBPVMAPPER_COUNTERS", "LENGTH_LT30_COUNTER")//
                    .increment(1L) ;
                return ;
            }

            // province id 
            String provinceIdValue = values[23] ;
            // url
            String url = values[1] ;

            // validate provinceIdValue
            if(StringUtils.isBlank(provinceIdValue)){
                context.getCounter("WEBPVMAPPER_COUNTERS", "PROVINCEID_BLANK_COUNTER")//
                .increment(1L) ;
                return ;
            }
            // validate url
            if(StringUtils.isBlank(url)){
                context.getCounter("WEBPVMAPPER_COUNTERS", "URL_BLANK_COUNTER")//
                .increment(1L) ;
                return ;
            }

            int provinceId = Integer.MAX_VALUE;

            try{
                provinceId = Integer.valueOf(provinceIdValue) ;
            }catch(Exception e){
                context.getCounter("WEBPVMAPPER_COUNTERS", "PROVINCEID_NOTTONUMBER_COUNTER")//
                .increment(1L) ;
                return ;
            }

            if(Integer.MAX_VALUE == provinceId){
                context.getCounter("WEBPVMAPPER_COUNTERS", "PROVINCEID_VALIDATE_COUNTER")//
                .increment(1L) ;
                return ;
            }
            // set
            mapOutputKey.set(provinceId);
            // output
            context.write(mapOutputKey, mapOutputValue);
        }
    }

    // step 2: reducer class
    /**
     * public class Reducer<KEYIN,VALUEIN,KEYOUT,VALUEOUT>
     */
    public static class WebPvReducer extends //
        Reducer<IntWritable,IntWritable,IntWritable,IntWritable>{

        private IntWritable outputValue = new IntWritable();

        @Override
        public void reduce(IntWritable key, Iterable<IntWritable> values,
                Context context)
                throws IOException, InterruptedException {
            // temp : sum 
            int sum = 0 ;

            // iterator
            for(IntWritable value : values){
                // total
                sum += value.get() ;
            }
            // set
            outputValue.set(sum);

            // output
            context.write(key, outputValue);
        }
    }

    // step 3: driver
    public int run(String[] args) throws Exception {
        // 1: get configuration
        Configuration configuration = super.getConf() ;

        // 2: create job
        Job job = Job.getInstance(//
            configuration, //
            this.getClass().getSimpleName()//
        );
        job.setJarByClass(this.getClass());

        // 3: set job
        // input  -> map  -> reduce -> output
        // 3.1: input
        Path inPath = new Path(args[0]) ;
        FileInputFormat.addInputPath(job, inPath);

        // 3.2: mapper
        job.setMapperClass(WebPvMapper.class);
        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(IntWritable.class);

// ===========================Shuffle======================================     
        // 1) partitioner
//              job.setPartitionerClass(cls);
        // 2) sort
//              job.setSortComparatorClass(cls);
        // 3) combine
            job.setCombinerClass(WebPvReducer.class);
        // 4) compress
            // set by configuration
        // 5) group
//              job.setGroupingComparatorClass(cls);
// ===========================Shuffle======================================     

        // 3.3: reducer
        job.setReducerClass(WebPvReducer.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);
        // set reducer number
//      job.setNumReduceTasks(3);

        // 3.4: output
        Path outPath = new Path(args[1]);
        FileOutputFormat.setOutputPath(job, outPath);

        // 4: submit job 
        boolean isSuccess = job.waitForCompletion(true);

        return isSuccess ? 0 : 1 ;
    }

    public static void main(String[] args) throws Exception {

        // create configuration
        Configuration configuration = new Configuration();

        // run job
        int status = ToolRunner.run(//
            configuration, //
            new WebPvMapReduce(), //
            args
        ) ;

        // exit program
        System.exit(status);
    }
}

導出成webpv.jar 包運行輸出結果

技術分享圖片

mapreduce 統計PV案例

大數據 hadoop 理解網站基本指標幾個工具編寫mapreduce 模板PV程序自定義計數器，對Mapreduce 進行DEBUG 調試一 .網站基本指標 1.1 PV PV(page view)，即頁面瀏覽量，或點擊量;通常是衡量一個網絡新聞頻道或網站甚至一條網絡新聞的主

案例2-mapreduce統計每年中每個月氣溫排行

如圖所示我們要計算每年中每個月氣溫倒序排行，在這個例子中我們輸入檔案中的年份只有3個，所以例子中的reduceTask個數是3個。如果不確定年份的個數，就不能使用年份維度作為reduceTask個數。

大數據學習之MapReduce編程案例二流量日誌統計 10

本地編寫代碼效果 system 持久 window highlight 手機 img 每一個用戶的統計總流量一：編寫代碼之前。先了解一下hadoop中的序列化 JAVA 類型 HADOOP 類型 int　　　　 IntWritable

針對微信的一篇推送附有的數據鏈接進行MapReduce統計

全球 tco 大數據 cer 推送 xtend .get ati 適用於原推送引用：https://mp.weixin.qq.com/s/3qQqN6qzQ3a8_Au2qfZnVg 版權歸原作者所有，如有侵權請及時聯系本人，見諒！原文采用Excel進行統計數據，這

從Nginx的access日誌統計PV、UV和熱點資源

port 需求 lba jquery 實現有用控制臺 pen for 需求：在阿裏雲-CDN管理控制臺的監控頁面裏，有對PV、UV和熱點資源的統計。於是自己也寫了腳本來獲取相關數據。分析： PV：指網站的訪問請求數。包含同一來源IP的多次請求。 UV

Servlet 實現訪問量的統計小案例

nbsp get content ati str 學習 resp row AC 今天學習了Servlet的基礎知識，學習了一個統計訪問量的小案例，記錄一下

mapreduce 高級案例倒排索引

大數據 hadoop mapreduce 倒排索引理解【倒排索引】的功能熟悉mapreduce 中的combine 功能根據需求編碼實現【倒排索引】的功能，旨在理解mapreduce 的功能。一：理解【倒排索引】的功能 1.1 倒排索引：由於不是根據文檔來確定文檔

Spark shell 詞頻統計和統計PV心得

spark shell spark shell PV spark shell 詞頻統計所有過程按本人實驗並以本人能夠接受的方式理解的，大家可以參考，如有問題請留言指正。樣本數據[hadoop@h201 ~]$ cat hh.txt hello,worldhello,hadoophello,ora

MapReduce 統計手機使用者的上行流量，下行流量，總流量，並對輸出的結果進行倒序排序。（二），劃分省份，輸出到不同的檔案

在（一）的基礎上，寫一個自己的partitioner就好了。分割槽的預設實現HashPartitioner，它根據key的hashcode和Interger. 在Reduce過程中，可以根據實際需求（比如按某個維度進行歸檔，類似於資料庫的分組），把Map完的資

MapReduce 統計手機使用者的上行流量，下行流量，總流量，並對輸出的結果進行倒序排序。（一）

首先，要知道hadoop自帶的LongWritable 是沒辦法儲存三個變數，即使用者的上行流量，下行流量，總流量。這個時候，沒辦法，你就要去寫一個屬於你自己的介面，去實現能夠放入這三個資料。 MapReduce中傳輸自定義資料型別（Bean->setter+

mapreduce統計總數

現有某電商網站使用者對商品的收藏資料，記錄了使用者收藏的商品id以及收藏日期，名為buyer_favorite1。 buyer_favorite1包含：買家id，商品id，收藏日期這三個欄位，資料以“\t”分割，樣本資料及格式如下：買家id

Elasticsearch統計聚合案例分析

情景通過ES聚合功能實現類似，對某個欄位統計該欄位的每個值在某一段時間內的對應的總數，例如對車牌統計，結果大概形式是：車牌1：100，車牌2：90，車牌3：85… 問題如果指定了返回條數，比如傳入了size=10或者size 預設值，而沒有指定shardSize

MapReduce 統計手機使用者的上行流量，下行流量，總流量，並對輸出的結果進行倒序排序。

首先，要知道hadoop自帶的LongWritable 是沒辦法儲存三個變數，即使用者的上行流量，下行流量，總流量。這個時候，沒辦法，你就要去寫一個屬於你自己的介面，去實現能夠放入這三個資料。這裡定義為flowbean，實現WritableComparable

統計分析案例

jsp頁面： <%--統計資料塊--%> <div id="statDiv"> <h1 style="background:#2dc713;"><span id="AttractInvestmentFindTitle">

編寫MapReduce :統計每個關鍵詞，所在檔案及，第幾行出現了多少次

import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.HashMap; import java.util.Map; import org.a

MapReduce初級經典案例實現

1、資料去重　　 "資料去重"主要是為了掌握和利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都會涉及資料去重。下面就進入這個例項的MapReduce程式設計。 1.1 例項描述　　

mapreduce典型應用案例之倒排索引

一、倒排索引的介紹通俗的講，就是根據單詞找到包含這個單詞的所有文件。二、mapreduce實現框架 1、首先要確定map、reduce、combiner中的key和value是什麼型別 2、然後確定key和value具體是什麼？ Map ： key為單詞+檔名 value為

元資料與資料治理｜MapReduce統計詞語出現次數（第五篇）

晨曦同學（Dota界號稱利神）前段時間分享了這樣一個問題：如何在一個很大的檔案中（該檔案包含了中英文）找出出現頻率比較高的幾個詞呢？我們來分析一下。找出現頻率比較高的詞語，首先要有一個支援中文的分詞器（IK，庖丁解牛等等），這個問題不大；分詞之後呢就要統計詞語出現次數，類似於MapReduce程式中

Mapreduce之TopN案例TreeMap實現

1．需求對需求2.3輸出結果進行加工，輸出流量使用量在前10的使用者資訊（1）輸入資料

Hbase與Mapreduce整合的案例

【需求】將info列簇中的name這一列匯入到另外一張表中去建表： create 'test:stu_info','info','degree','work' 插入資料：6個rowkey 3個列簇 put 'test:stu_info','20170222_10001',

mapreduce 統計PV案例

一 .網站基本指標

1.1 PV

1.2 UV

1.3 UIP

二. 編寫mapreduce 模板PV程序

2.1 java 代碼

相關推薦