大資料學習筆記(spark日誌分析案例)

阿新 • • 發佈：2018-12-21

前提：500w條記錄環境下（可以更多，視計算機效能而定），統計每天最熱門的top3板塊。

1、PV和UV

我們要統計的是最熱門的top3板塊，而熱門如果只是簡單地通過頁面瀏覽量（PV）或者使用者瀏覽量（UV）來決定都顯得比較片面，這裡我們綜合這兩者（0.3PV+0.7UV）來獲取我們的需求。

1.1、PV

PageView：瀏覽量。（有幾次瀏覽就算幾次）在這裡插入圖片描述

1.2、UV

UserView：使用者量。（同一個使用者同一天瀏覽一個模組多次，只能算一次）在這裡插入圖片描述 1.3、PV+UV

通過上面的分析已經解釋了PV和UV的含義，以及獲取這兩個值的具體操作思路。下面探討一下，如何在這兩個值的基礎上，求出每天最熱門的top3板塊。

按照前面的操作已經獲得了兩個RDD，PVRDD、UVRDD。在這兩個RDD上使用join連線，在join運算元裡面通過（0.3PV+0.7UV）可以獲得每天的各個模組的一個熱度值。將這個值排序。取前三名，就是我們要求的每天最熱top3板塊了。在這裡插入圖片描述

2、生成資料

由於沒有獲取大量資料的條件，這裡我們通過程式碼自己製造一部分資料來進行相關操作。我模仿的資料結構是：UUID 使用者id 時間戳頁面id 模組名（中間用\t製表符分隔）

package com.hpe.data;

import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.OutputStreamWriter;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
import java.util.List;
import java.util.Random;
import java.util.UUID;

public class MakeLogData {
	public static void main(String[] args) throws Exception {
		BufferedWriter bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream("d:/logdata")));
		Random random = new Random();
		int logNUm = 5000000;
		StringBuilder stringBuilder = new StringBuilder();
		List<String> channelList = Arrays.asList("spark","hdfs","mr","yarn","hive","scala","python");
		 
		for (int i = 0; i < logNUm; i++) {
			String sessionId = UUID.randomUUID().toString();
			int userId = random.nextInt(10000);
			int year = 2018;
			int month = random.nextInt(12) + 1;
			int day = random.nextInt(30) + 1;
			int hour = random.nextInt(24);
			int minute = random.nextInt(60);
			int second = random.nextInt(60);
			String dateTime = year + "-" + month + "-" + day + " " + hour + ":" + minute + ":" + second;
			SimpleDateFormat form = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");	
			long time = form.parse(dateTime).getTime();
			int pageId = random.nextInt(100);
			String channel = channelList.get(i % channelList.size() );
			stringBuilder.append(sessionId + "\t" + userId + "\t" + time + "\t" + pageId + "\t" + channel + "\n");
			bw.write(stringBuilder.toString());
			stringBuilder.delete(0, stringBuilder.length());
		}
		
		bw.flush();
		bw.close();
	}
}

3、程式碼

package com.hpe.spark.loganalyse

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import java.util.Date
import java.text.SimpleDateFormat
import org.apache.spark.rdd.RDD.rddToPairRDDFunctions
import org.apache.spark.rdd.RDD

object PVAndUV {
  def main(args: Array[String]): Unit = {
    //配置資訊
    val conf = new SparkConf();
    conf.setAppName("UV + PV")
    conf.setMaster("local")
    val sc = new SparkContext(conf)
    
    //載入資料
    val rdd = sc.textFile("d:/data/logdata")
    
    
    //呼叫方法
     val rdd2 = first(rdd)
     
     //rdd2.saveAsTextFile("d:/data/Log2")
     
     sc.stop()
  }
  
  //封裝方法
  def first(rdd:RDD[String]) = {
    
    
    //切割字串
    val splitRDD = rdd.map { _.split("\t") }
    
    //過濾，去除髒資料
    val filterRDD = splitRDD.filter { _.length == 5 }
   
    //PV model
    val reduceRDD = pv(filterRDD)
   
    //UV model
    val reduceRDD2 = uv(filterRDD)

    //jion 合併兩個RDD
    val unionRDD = reduceRDD.join(reduceRDD2)
    
    //返回  時間_模組
    //(時間_模組,(a,b))
    val endRDD = unionRDD
      .map(x =>{
        val value = x._2._1 *0.3 + x._2._2 *0.7
        (x._1,value)
      })
      .sortBy(_._2,false)
      .map(x =>{
        val day = x._1.split("_")(0)
        val model = x._1.split("_")(1)
        (day,model)
      })
      .groupByKey()
      .map(x => {
        val list = x._2.take(3)
        (x._1,list)
      }).foreach { println }
    
    
    endRDD
  }
  
  //pv操作
  def pv(filterRDD:RDD[Array[String]]) = {
    val mapRDD = filterRDD.map { x => {
      val time = x(2).toLong
      val date = new Date(time)
      val format = new SimpleDateFormat("yyyy-MM-dd")
      val dateStr = format.format(date)
      x(2) = dateStr
      //返回  時間_模組
      (x(2) + "_" + x(4),1)
    } }
   
    val reduceRDD=mapRDD.reduceByKey(_+_)
    reduceRDD
  }
  
  //uv操作
  def uv(filterRDD:RDD[Array[String]]) = {
    val mapRDD2 = filterRDD.map { x => {
      val time = x(2).toLong
      val date = new Date(time)
      val format = new SimpleDateFormat("yyyy-MM-dd")
      val dateStr = format.format(date)
      x(2) = dateStr
      //返回  使用者id_模組_時間
      (x(1) + "_" + x(2) + "_" + x(4),null)
    } }
   
    //去重
    val disRDD = mapRDD2.distinct()
    
    //只需要key,組裝二元組
    val tupleRDD = disRDD.map(x =>{
      val key = x._1
      //key：會員id_時間_板塊id
      //把會員id切掉
      val newKey = key.substring(key.indexOf("_")+1, key.length())
      (newKey,1)
    })
    
    //累加
    val reduceRDD2=tupleRDD.reduceByKey(_+_)
    reduceRDD2
  }
}

大資料學習筆記(spark日誌分析案例)

前提：500w條記錄環境下（可以更多，視計算機效能而定），統計每天最熱門的top3板塊。 1、PV和UV 我們要統計的是最熱門的top3板塊，而熱門如果只是簡單地通過頁面瀏覽量（PV）或者使用者瀏覽量（UV）來決定都顯得比較片面，這裡我們綜合這兩者（0.3PV+

大資料 hive 15--hive日誌分析案例

1.1 專案來源本次實踐的目的就在於通過對該技術論壇網站的tomcat access log日誌進行分析，計算該論壇的一些關鍵指標，供運營者進行決策時參考。 PS：開發該系統的目的是為了獲取一些業務相關的指標，這些指標在第三方工具中無法獲得的； 1.2 資料情況該論壇資料有兩部分

大資料學習筆記——Spark工作機制以及API詳解

Spark工作機制以及API詳解本篇文章將會承接上篇關於如何部署Spark分散式叢集的部落格，會先對RDD程式設計中常見的API進行一個整理，接著再結合原始碼以及註釋詳細地解讀spark的作業提交流程，排程機制以及shuffle的過程，廢話不多說，我們直接開始吧！ 1. Spark基本API解讀首先我們寫

大資料學習筆記之flume----日誌收集系統

一、flume基本概念 Flume是Cloudera提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統； Flume支援在日誌系統中定製各類資料傳送方，用於收集資料； Flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。總結：f

大資料學習筆記之spark及spark streaming----快速通用計算引擎

導語 spark 已經成為廣告、報表以及推薦系統等大資料計算場景中首選系統，因效率高，易用以及通用性越來越得到大家的青睞，我自己最近半年在接觸spark以及spark streaming之後，對spark技術的使用有一些自己的經驗積累以及心得體會，在此分享給大家。本文依

大資料學習筆記（六）-Spark環境配置

Spark配置： spark-env配置： export SPARK_MASTER_IP=hadoop000 slaves配置： hadoop000 調整Spark-shell的日誌輸出級別： conf/log4j.propert

大資料學習筆記之三十 Spark介紹之一

Spark簡介主要用來加快資料分析的執行和讀寫速度基於MapReduce演算法實現的分散式計算，在擁有Hadoop MapReduce所有優點的基礎上，其任務的中間結果還可以儲存在記憶體中，查詢速度快處理迭代演算法（機器學習、圖挖掘演算法）和互動式資料探

大資料學習之SPARK計算天下

學習大資料技術，SPARK無疑是繞不過去的技術之一，它的重要性不言而喻，本文將通過提問的形式圍繞著SPARK進行介紹，希望對大家有幫助，與此同時，感謝為本文提供素材的科多大資料的武老師。為了輔助大家更好去了解大資料技術，本文集中討論Spark的一系列技術問題，大家在學習過程中如果遇到困難，可以

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理，Slave用於執行計算任務。 5、Hadoop從2.x開始，把儲存和計算分離開來，形成兩個相對獨立的子叢集：HDF

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

501、MapReduce計算框架中的輸入和輸出的基本資料結構是鍵-值對。 502、Hadoop神奇的一部分在於sort和shuffle過程。 503、Hive驅動計算的“語言”是一XML形式編碼的。 504、Hive通過和Jobtracker通訊來初始化MapReduce任務（Job）。 505、M

大資料學習筆記

在學習大資料之前，我們需要先了解什麼是大資料大資料（Big Data）又稱為巨量資料，指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資產。“大資料”概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大資料

大資料學習筆記之Hadoop-HDFS

HDFS的Shell操作基本語法 bin/hadoop fs 具體命令 OR bin/hdfs dfs 具體命令 dfs是fs的實現類。命令大全 bin/hadoop fs [-appendToFile <localsrc> ... <d

大資料學習筆記之ClouderaManager

Cloudera Manager的概念和功能簡單來說，Cloudera Manager是一個擁有叢集自動化安裝、中心化管理、叢集監控、報警功能的一個工具（軟體）,使得安裝叢集從幾天的時間縮短在幾個小時內，運維人員從數十人降低到幾人以內，極大的提高叢集管理的效率。管理：

大資料學習筆記之azkaban

Azakaban的安裝部署安裝前準備將Azkaban Web伺服器、Azkaban執行伺服器、Azkaban的sql執行指令碼及MySQL安裝包拷貝到hadoop102虛擬機器/opt/software目錄下 azkaban-web-server-2.5.0.tar.

大資料學習筆記(三) -- linux的重要知識點以及相關命令

linux特點： linux中一切皆檔案，一個程序也會被對映成檔案，一個硬碟也會被對映成檔案。 linux 是一個虛擬的目錄樹結構，每個分割槽會被對應一個目錄。 window中我們執行一個程式是用滑鼠點選exe，linux中是通過命令，其實輸入一個命令就相當於wind

大資料學習筆記(五) -- linux中vi編輯器的快捷鍵

Table of Contents 末行模式文字操作技巧開啟檔案關閉檔案 [[email protected] ~]# vi +22 profile

大資料學習筆記(七) -- linux的使用者管理

Table of Contents 許可權管理建立使用者建立使用者組許可權管理 r 可讀，w 可寫，x 對於程式來說可執行，文字一般沒有x，對於目錄來說可進入，所以一般目錄都有x許可權，否則沒什麼意義。更改許可權語法一 chmod augo +/-

大資料學習筆記（十四）-- hadoop

Table of Contents HDFS 儲存模型架構模型副本佈置總結 Hadoop簡介 HDFS 儲存模型解釋：已上傳的Block大小不可改變的原因是每個Block大小一致，改變一個其他也會跟著改變

大資料實時階段_Day05_日誌分析

課程名稱：日誌監控告警系統課程目標： 1、掌握Storm程式設計的應用場景及程式設計模型 2、掌握Storm開發生態圈各知識點 3、掌握簡訊和郵件告警功能課程大綱： 1、背景知識 2、需求分析 3、功能分析 4、架構設計 5、程式碼開發點

大資料學習筆記（Map Reduce在叢集上的執行架構）

MR1.X執行架構 JobTracter 核心，主，單點排程所有的作業監控整個叢集的資源負載 TaskTracter 從，自身節點資源管理和JobTracter心跳，彙報資源，獲取Task Client 作業為單位最終提交作業到JobTracker

大資料學習筆記(spark日誌分析案例)

前提：500w條記錄環境下（可以更多，視計算機效能而定），統計每天最熱門的top3板塊。

1、PV和UV

1.1、PV

1.2、UV

2、生成資料

3、程式碼

相關推薦