SparkStreaming視窗操作經典案例

阿新 • • 發佈：2018-12-14

1.背景描述

在社交網路（微博），電子商務（京東）、搜尋引擎（百度）、股票交易中人們關心的內容之一是我所關注的內容中，大家正在關注什麼
在實際企業中非常有價值
例如：我們關注過去30分鐘大家都在熱搜什麼？並且每5分鐘更新一次。要求列出來搜尋前三名的話題內容 2.原理圖如圖所示，每當視窗滑過DStream時，落在視窗內的源RDD被組合並被執行操作以產生windowed DStream的RDD。在上面的例子中，操作應用於最近3個時間單位的資料，並以2個時間單位滑動。這表明任何視窗操作都需要指定兩個引數。  視窗長度（windowlength） - 視窗的時間長度（上圖的示例中為：15）。  滑動間隔（slidinginterval） - 兩次相鄰的視窗操作的間隔（即每次滑動的時間長度）（上圖示例中為：10）。這兩個引數必須是源DStream的批間隔的倍數（上圖示例中為：5）。

3.程式碼

 問題：
  *       下述程式碼每隔20秒回重新計算之前60秒內的所有資料，如果視窗滑動時間間隔太短，那麼需要重新計算的資料就比較大，非常耗時
  *       怎麼理解呢？視窗滑動時間間隔短的話，與視窗長度的交集每次都必須重新計算，浪費資源，避免交集太大的話就應該設定滑動間隔長一點
  *    //第一個Seconds是視窗大小（3個RDD一共需要的時間）,第二個Seconds是視窗間隔時間
  *       searchPair.reduceByKeyAndWindow((v1:Int, v2:Int) => v1+v2, (v1:Int, v2:Int) => v1-v2, Seconds(60), Seconds(20))
  *
object OnlineHotItems {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    //建立StreamingContext物件
    val sparkConf = new SparkConf().setAppName("OnlineHotItems").setMaster("local[2]")
    /**
      * 此處設定Batch Interval 是在Spark Streaming中生成基本Job的時間單位，視窗和滑動時間間隔必須是是該
      * Batch Interval的整數倍,如果不是收集資料的整數倍，就會報錯，因為時間不統一，資料就會出現不完整
      */
    val ssc = new StreamingContext(sparkConf,Seconds(5))
    //建立一個離散流，DStream代表輸入的資料流
    val hottestStream = ssc.socketTextStream("hadoop01",1234)

    /**
      * 使用者搜尋的格式簡化為item,time  在這裡我們由於要計算出熱點內容，所以只需要取出item即可
      * 提取出的item然後通過map轉換為(item,1)格式
      */
    val searchPair = hottestStream.map(_.split(",")(0)).filter(!_.isEmpty).map(item=>(item,1))
    val hottestDStream = searchPair.reduceByKeyAndWindow((v1:Int,v2:Int)=>v1+v2,Seconds(60),Seconds(20))
    val result: DStream[(String, Int)] = hottestDStream.transform(hottestRDD => {
      val top3: Array[(String, Int)] = hottestRDD.map(pair => (pair._2, pair._1)).sortByKey(false).map(pair => (pair._2, pair._1)).take(3)
      ssc.sparkContext.makeRDD(top3)
    })
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

SparkStreaming視窗操作經典案例

1.背景描述在社交網路（微博），電子商務（京東）、搜尋引擎（百度）、股票交易中人們關心的內容之一是我所關注的內容中，大家正在關注什麼在實際企業中非常有價值例如：我們關注過去30分鐘大家都在熱搜什麼？並且每5分鐘更新一次。要求列出來搜尋前三名的話題內容 2

SparkStreaming（8）：windows視窗操作

1.概念在一定的時間間隔（interval）進行一個時間段（window length）內的資料處理。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】 2.核心

Visual C++網路程式設計經典案例詳解第3章多執行緒與非同步套接字程式設計實現執行緒同步互斥物件使用API函式操作互斥物件

互斥物件和臨界區物件和事件物件作用一樣用於實現執行緒同步互斥物件可以線上程中使用 CreateMutex()建立並返回互斥物件原型如下 HANDLE CreateMutex( LPSECURITY_ATTIRIBUTES lpMutexAttributes,

經典案例-連結串列操作的幾大經典例子單鏈表反轉環的檢測求中間節點有序連結串列合併等

這篇博文主要總結連結串列在應用時的幾個重要案例。學習之前，最好能夠掌握連結串列相關的一些基礎知識，以及連結串列中資料的插入、刪除操作如何實現等等，這些網上資料很多，這裡沒有做過多介紹，不熟悉的同學可以看程式碼之前簡單瞭解一下。 1.單鏈表反轉連結串列中環的檢測

關於for循環的幾種經典案例

所有 log 數字 style 學習兩個方式運用得到由於for循環可以通過控制循環變量的初始值和循環結束條件來改變遍歷的區間，所以在排序或者遍歷的時候，利用for循環就比較簡單，以下是本人學習後得到的一些總結案例。 1.排序的應用 1）交換排序：通過取出的數和該數

TL認證和運作經典案例評選

部門研發性問題文化案例成功推廣推出評選評選背景： 1、TL能力模型推出一年多時間以來，各地區、部門的TL認證和運作如火如荼，中開社上已有部分案例輸出； 2、有部門在認證和運作上希望能借鑒優秀案例的經驗

sed正則經典案例（四）

sed正則經典案例sed正則經典案例（四）###修改日期格式，已知文件內容如下：原始數據：文件date.txt21/May/2017:09:29:24 +0800 22/May/2017:09:30:26 +0800 23/May/2017:09:31:56 +0800 24/May/2017:09:34:1

sed正則經典案例（二）

sed正則sed正則經典案例（二） ###修改登記信息格式已知文本內容如下：[[email protected]/* */ oldboy]# cat 2.txt 張三--1995/04/12--186-1233-4324--5004132131231231231 李四--1993/05/20

架構設計經典案例：X窗體系統

它的並且研發能夠通過經典優勢進行 ack X Window在1984年由MIT研發。它的設計哲學之中的一個是：提供機制。而非策略（類似面向對象思想中的“針對接口編程,而不是針對實現編程”）。機制(mechanism)是指須要提供哪些功能。策

TensorFlow經典案例3:實現線性回歸

show light ima int testin cos global style finish TensorFlow實現線性回歸 #實現線性回歸 import tensorflow as tf import numpy as np import matplotlib.

Systemstate Dump分析經典案例（下）

oracle 數據庫前言接上一期：（上一期的閱讀方法：關註“中亦安圖”公眾號後回復‘007’）4.3.4SSD中library cache lock的分析接上一期：分析到這步，前邊看似毫無頭緒的問題似乎理清了，大量cursor:pin S wait on X已經理清楚，所有的矛頭走指向了sid 85

Systemstate Dump分析經典案例（上）

oracle 數據庫前言本期我們邀請中亦科技的另外一位Oracle專家老K來給大家分享systemstate dump分析的經典案例。後續我們還會有更多技術專家帶來更多誠意分享。老K作為一個長期在數據中心奮戰的數據庫工程師，看到小y前期的分享，有種躍躍欲試的感覺，也想把我日常遇到的一些有意思的案例拿

分治算法經典案例 - 棋盤問題

mat 規模白色 str c++ amp ems review mes 2017-08-26 20:18:50 writer：pprp 問題大概描述：有一個2k?2k的方格棋盤，恰有一個方格是黑色的，其他為白色。你的任務是用包含3個方格的L型牌覆蓋所有白色方格。黑色

多線程面試題系列（16）：多線程十大經典案例之一雙線程讀寫隊列數據

als single 間隔 eas 講解 art ces 依賴 ini 前十五篇中介紹多線程的相關概念，多線程同步互斥問題（第四篇）及解決多線程同步互斥的常用方法——關鍵段、事件、互斥量、信號量、讀寫鎖。為了讓大家更加熟練運用多線程，將會有十篇文章來講解十個多線程使用案例，

經典案例獲取數組裏的對象是否匹配

初始化 fun rst min like ava war first odi //初始化變量var contacts = [ { "firstName": "Akira", "lastName": "Laine", "numb

幹貨 | TensorFlow的55個經典案例

谷歌化學語言包含 star 進行 comm lec sum 轉自1024深度學習導語：本文是TensorFlow實現流行機器學習算法的教程匯集，目標是讓讀者可以輕松通過清晰簡明的案例深入了解 TensorFlow。這些案例適合那些想要實現一些 Tenso

如何拉動內需，擊中客戶深層需求，4個經典案例分析！

推銷員機器介紹維生素電話銷售 -s 綜合就會沒有（第三個醫患案例僅作為啟發，不倡導醫生為之，在此聲明）導讀:客戶的需求往往是多方面的、不確定的，需要去分析和引導。客戶的需求是指通過買賣雙方的長期溝通，對客戶購買產品的欲望、用途、功能、款

面向對象經典案例坦克大戰

菜單記錄沒有間隔 mes sets font 爆炸效果 private package Tank;import java.awt.*;import java.awt.event.ActionEvent;import java.awt.event.ActionListe

小白到大神之相關經典案例

hover 常用 meta oat doc pos set utf-8 gpo 　　一.滑動門制作導航欄代碼： <!DOCTYPE html><html> <head> <meta charset="UTF-8

Apache-rewrite+13個經典案例

網頁更改主頁 symlink 文件的 rtu user virt url Apache 重寫規則的常見應用 (rewrite)一:目的本文旨在提供如何用Apache重寫規則來解決一些常見的URL重寫方法的問題，通過常見的實例給用戶一些使用重寫規

SparkStreaming視窗操作經典案例

相關推薦