scala spark-core 綜合練習

阿新 • • 發佈：2018-12-17

package day01

import scala.util.matching.Regex
/**
  * 提供一些操作Apache Log的工具類供SparkCore使用
  */
case class ApacheAccessLog(
                             ipAddress: String, // IP地址
                             clientId: String, // 客戶端唯一識別符號
                             userId: String, // 使用者唯一識別符號
                             serverTime: String, // 伺服器時間
                             method: String, // 請求型別/方式
                             endpoint: String, // 請求的資源
                             protocol: String, // 請求的協議名稱
                             responseCode: Int,// 請求返回值：比如：200、401
                             contentSize: Long // 返回的結果資料大小

                          )

object ApacheAccessLog {
  // Apache日誌的正則
  val PARTTERN: Regex =
    """^(\S+) (\S+) (\S+) \[([\w:/]+\s[+\-]\d{4})\] "(\S+) (\S+) (\S+)" (\d{3}) (\d+)""".r

  /**
    * 驗證一下輸入的資料是否符合給定的日誌正則，如果符合返回true；否則返回false
    *
    * @param line
    * @return
    */
  def isValidateLogLine(line: String): Boolean = {
    val options = PARTTERN.findFirstMatchIn(line)

    if (options.isEmpty) {
      false
    } else {
      true
    }
  }

  /**
    * 解析輸入的日誌資料
    *
    * @param line
    * @return
    */
  def parseLogLine(line: String): ApacheAccessLog = {
    if (!isValidateLogLine(line)) {
      throw new IllegalArgumentException("引數格式異常")
    }

    // 從line中獲取匹配的資料
    val options = PARTTERN.findFirstMatchIn(line)

    // 獲取matcher
    val matcher = options.get

    // 構建返回值
    ApacheAccessLog(
      matcher.group(1), // 獲取匹配字串中第一個小括號中的值
      matcher.group(2),
      matcher.group(3),
      matcher.group(4),
      matcher.group(5),
      matcher.group(6),
      matcher.group(7),
      matcher.group(8).toInt,
      matcher.group(9).toLong
    )
  }
}

package day01

import org.apache.spark.broadcast.Broadcast
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 1：求返回結果資料的平均值、最大值、最小值
  * 2：統計各個返回值出現的資料次數
  * 3：獲取訪問次數超過N次的IP地址
  * 增加難度：對IP地址進行限制，黑名單的IP地址不做統計
  * 4：獲取訪問次數最多的前N個資源=》TopN操作
  */
object Access_log {
//110.75.173.48 - - [30/May/2013:23:59:58 +0800] "GET /thread-36410-1-9.html HTTP/1.1" 200 68629
def main(args: Array[String]): Unit = {
  val topN= 2000
  val topK =3
  val conf = new SparkConf().setAppName("Access_log").setMaster("local[*]")
  val sc =new SparkContext(conf)

  //讀取資料
  val lines: RDD[String] = sc.textFile(args(0))
  //對資料進行匹配
  val logsRDD: RDD[ApacheAccessLog] = lines.filter(line =>ApacheAccessLog.isValidateLogLine(line)).map(line=>{
    ApacheAccessLog.parseLogLine(line)
  })
    //因為要對資料進行多次處理,所有對資料進行優化
  logsRDD.cache()//將資料儲存到記憶體中
  /**
    * 1：求返回結果資料的平均值、最大值、最小值
    */
  val contentSizeRdd: RDD[Long] = logsRDD.map(line=>(line.contentSize))
  contentSizeRdd.cache()
  val contentSizeMax: Long = contentSizeRdd.max()
  val contentSizeMin: Long = contentSizeRdd.min()
  val contentSizeSum: Double = contentSizeRdd.sum()
  val contentSizeCount: Long = contentSizeRdd.count()
  val age: Double =1.0 *contentSizeSum /contentSizeCount

  println(s"平均值: $age, 最大值:$contentSizeMax, 最小值:$contentSizeMin")
  //釋放記憶體中的資源
  contentSizeRdd.unpersist(true)

  /**
    * 2：統計各個返回值出現的資料次數
    */
  val responseCodeRdd: RDD[(Int, Int)] = logsRDD.map(line=>(line.responseCode,1)).reduceByKey(_+_)
  println("每個狀態返回值得次數:"+"\t\n"+s"${responseCodeRdd.collect().mkString("\t\n")}")

  /**
    * 3：獲取訪問次數超過N次的IP地址
    *  增加難度：對IP地址進行限制，黑名單的IP地址不做統計
    */

    val blackIPs=Array("110.75.173.48", "220.181.89.186")
    //定義廣播變數,這裡方便點,就寫死了
    val broadcasted: Broadcast[Array[String]] = sc.broadcast(blackIPs)
  //對ip地址進行黑名單過濾
  val ipAddressRdd: RDD[(String, Int)] = logsRDD.filter(log => (!broadcasted.value.contains(log.ipAddress))).map(line => (line.ipAddress, 1))
    .reduceByKey(_ + _).filter(tp => tp._2 > topN)
    println(s"ipAddress :${ipAddressRdd.collect().mkString(", ")}")

  /**
    * 獲取訪問次數最多的前N個資源=》TopN操作
    */
  val endpointRDD: Array[(String, Int)] = logsRDD.map(line=>(line.endpoint,1)).reduceByKey(_+_).top(topK)(TupleOrdering)
  println(s"endpoint : ${endpointRDD.mkString(",")}")

  //釋放記憶體
  logsRDD.unpersist(true)
  //關閉資源
  sc.stop()
}
}

//自定義排序規則
object TupleOrdering extends Ordering[(String,Int)]{
  override def compare(x: (String, Int), y: (String, Int)): Int = {
    x._2.compare(y._2)
  }
}

scala spark-core 綜合練習

package day01 import scala.util.matching.Regex /** * 提供一些操作Apache Log的工具類供SparkCore使用 */ case class ApacheAccessLog(

spark-core 綜合練習(廣播變數,join的使用)

package day04 import org.apache.spark.broadcast.Broadcast import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** *

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料測試資料格式：如上圖，欄位含義為，班級，學生姓名，分數下面我們通過一

spark上使用scala及python程式設計練習

官網Quick Start介紹瞭如何使用spark進行分散式計算.本博文以此為藍本，利用scala和python兩種語言簡單實踐了一下實驗內容，有利於增進認識。實現的功能為統計README.md檔案下字元a和字元b分別有多少個。 scala版本計算安

Spark-core運算元大全（java，scala，python）

/** * Java版本導包相關 */ import org.apache.spark.Partitioner; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD

Spark Core源代碼分析: RDD基礎

water 節點遞歸 extc 細致 get part -- 排序 RDD RDD初始參數：上下文和一組依賴 abstract class RDD[T: ClassTag]( @transient private var sc: SparkCont

Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

進行 text actor 類型能夠 ext lang 運行匯報 Spark Runtime裏的主要層次分析，梳理Runtime組件和運行流程， DAGScheduler Job=多個stage，Stage=多個同種task, Task分為S

【Luogu】【關卡1-8】BOSS戰-入門綜合練習2（2017年10月）

c代碼更新 line logs pen 會有我們 eof end P1426 小魚會有危險嗎我個人覺得這個題目出的不好，沒說明白，就先只粘貼的AC代碼吧 1 #include <bits/stdc++.h> 2 using namespace st

vue組件父子間通信之綜合練習--假的聊天室

ner name type 屬性 urn ejs rec 用戶輸入 for <!doctype html> <html> <head> <meta charset="UTF-8"> <title>組件父

Python基礎綜合練習

img OS 綜合 fill .com inf tle rtl 基礎 import turtle def mygoto(x, y): turtle.up() turtle.goto(x, y) turtle.down() def draww

組合數據類型綜合練習

括號不能由於元素字符串 print 有序 for 總結 1.組合數據類型練習：分別定義字符串，列表，元組，字典，集合，並進行遍歷。定義字符串並進行遍歷 >>> str = ‘Micheal‘ >>> for i in str

組合數據類型綜合練習：1.組合數據類型練習

列表類型練習綜合練習 charm 組合 better clas true #字符串 s = ‘Hello‘ for i in s: print(i) # 列表 ls = [‘p‘, ‘y‘, ‘Char‘, ‘m‘] for i in ls:

Unix系統編程（）open，read，write和lseek的綜合練習

har ring strtol 開始 splay 進制 void oct unsigned 需求：程序的第一個命令行參數為將要打開的文件名稱，余下的參數則指定了文件上執行的輸入輸出操作。每個表示操作的參數都以一個字母開頭，緊跟以相關值（中間無空格分隔）。 soffet：

綜合練習：英文詞頻統計

ldr one Go 處理 AC 空格 sorted 意義 spl 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞頻最大TOP10 s

綜合練習：詞頻統計

side st2 days pre forever oms rev item color song = ‘‘‘ An empty street，An empty house，A hole inside my heart，I‘m all alone，The rooms ar

第1章綜合練習

Java第1章綜合練習 1.1 綜合練習一A:鍵盤錄入3個學生信息(學號,姓名,年齡,居住地)存入集合,要求學生信息的學號不能重復B:遍歷集合把每一個學生信息存入文本文件C:每一個學生信息為一行數據,每行學生的學號,姓名,年齡和居住地在文件中均以逗號分隔1.1.1 案例代碼一:[AppleScript] 純

大數據筆記（二十七）——Spark Core簡介及安裝配置

sin cli sca follow com clu 同時 graphx 信息 1、Spark Core：類似MapReduce 核心：RDD 2、Spark SQL：類似Hive，支持SQL 3、Spark Streaming：類似

數據庫作業14——綜合練習(二) 反饋情況

tro 物理加油 char 插入 pad 代碼規範保存沒有數據庫作業14——綜合練習(二) 反饋情況一、作業要求復述 1、創建數據庫CPXS，保存於E盤根目錄下以自己學號+姓第一個字母（阿拉伯數字+大寫字母）方式創建的文件夾中，初始大小5MB，最大20MB，以10

SQL作業：綜合練習（二）的返評

庫文件 spl val 查找括號冰箱 HR 題目 tar 一：作業題目：綜合練習（二）二：題目要求： 1、創建數據庫CPXS，保存於E盤根目錄下以自己學號+姓第一個字母（阿拉伯數字+大寫字母）方式創建的文件夾中，初始大小5MB，最大20MB，以10%方式增長，日誌文件

scala spark-core 綜合練習

相關推薦