SparkStreaming中reduceByKeyAndWindow運算元的使用

阿新 • • 發佈：2018-12-15

這裡寫圖片描述

截圖自官網,例如每個方塊代表5秒鐘,上面的虛線框住的是3個視窗就是15秒鐘,這裡的15秒鐘就是視窗的長度,其中虛線到實線移動了2個方塊表示10秒鐘,這裡的10秒鐘就表示每隔10秒計算一次視窗長度的資料

舉個例子: 如下圖

這裡寫圖片描述

我是這樣理解的:如果這裡是使用視窗函式計算wordcount 在第一個視窗(虛線視窗)計算出來(aa, 1)(bb,3)(cc,1)當到達時間10秒後窗口移動到實線視窗,就會計算這個實線視窗中的單詞,這裡就為(bb,1)(cc,2)(aa,1)

附上程式:

注意:視窗滑動長度和視窗長度一定要是SparkStreaming微批處理時間的整數倍,不然會報錯.

package cn.lijie.kafka

import 
 cn.lijie.MyLog
import org.apache.log4j.Level
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}

/**
  * User: lijie
  * Date: 2017/8/8
  * Time: 14:04  
  */
object SparkWindowDemo {

  val myfunc = (it: Iterator[(String, Seq[Int], Option[Int])]) 
 => {
    it.map(x => {
      (x._1, x._2.sum + x._3.getOrElse(0))
    })
  }

  def main(args: Array[String]): Unit = {
    MyLog.setLogLeavel(Level.WARN)
    val conf = new SparkConf().setMaster("local[2]").setAppName("window")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(2 
))
    sc.setCheckpointDir("C:\\Users\\Administrator\\Desktop\\myck01")
    val ds = ssc.socketTextStream("192.168.80.123", 9999)
    //Seconds(5)表示視窗的寬度   Seconds(3)表示多久滑動一次(滑動的時間長度)
    val re = ds.flatMap(_.split(" ")).map((_, 1)).reduceByKeyAndWindow((a: Int, b: Int) => a + b, Seconds(20), Seconds(10))
    //    視窗長度和滑動的長度一致,那麼類似於每次計算自己批量的資料,用updateStateByKey也可以累計計算單詞的wordcount 這裡只是做個是實驗
    //    val re = ds.flatMap(_.split(" ")).map((_, 1)).reduceByKeyAndWindow((a: Int, b: Int) => a + b, Seconds(4), Seconds(4)).updateStateByKey(myfunc, new HashPartitioner(sc.defaultParallelism), true)
    re.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

SparkStreaming中reduceByKeyAndWindow運算元的使用

SparkStreaming中reduceByKeyAndWindow運算元的使用

MATLAB中log運算元處理影象

spark streaming中reduceByKeyAndWindow簡單例子

spark中常用運算元含義及區別

Spark原始碼解析之SparkStreaming中Receiver的啟動

Spark學習筆記 --- SparkStreaming 中基本概念

[Spark04]RDD中的運算元

Spark中Actionn運算元操作（三）

【Spark篇】---Spark中Action運算元

演算法中的運算元是什麼意思,影象處理一樣理解

java中運算子運算元表示式語句使用詳解

Spark中CountByValue運算元Updatestatebykey運算元

Spark中MapValues運算元（可以將value的值加起來，相當於reducebykey；也可以將value的個數加起來，相當於countbykey）

Qemu中TCG運算元的定義及註釋

sparkstreaming中kafka的offset提交

SparkStreaming 中 Kafka 引數 auto.offset.reset 的說明

Spark Streaming中reduceByKeyAndWindow例項開發

SparkStreaming部分：updateStateByKey運算元（包含從Linux端獲取資料，flatmap切分，maptopair分類，寫入到本地建立的資料夾中）【Java版純程式碼】

SparkStreaming Direct 方式中手動管理 Kafka Offset 的示例程式碼

22 友盟項目--sparkstreaming對接kafka、集成redis--從redis中查詢月留存率

SparkStreaming中reduceByKeyAndWindow運算元的使用

相關推薦