SparkStreaming視窗函式的應用

阿新 • • 發佈：2018-12-27

package windon

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 背景描述
  * 在社交網(微博),電子商務(淘寶),搜尋引擎(百度),股票交易中人們最關係的內容
  * 大家在某段時間中關注的是什麼
  * 這種資料,在企業中非常有價值
  *
  * 例如:我們關注的過去30分鐘大家的熱搜是什麼?
  * 需求:我們需要沒20秒鐘統計一次過去60秒的熱詞
  * 資料格式:  hadoop 20181224
  * 返回格式要求: 熱詞排行前三
  */
object OnlineHotItem {
  def main(args: Array[String]): Unit = {
   //過濾日誌
    Logger.getLogger("org").setLevel(Level.WARN)
    //入口
    val conf = new SparkConf().setAppName("1").setMaster("local[*]")
    val ssc = new StreamingContext(conf,Seconds(5))
    //拉取資料
    val hosItemDStream = ssc.socketTextStream("hadoop01",1234)
    //對資料進行處理,得到想要的資料
    val serachPair = hosItemDStream.map(_.split(" ")(0)).filter(!_.isEmpty).map((_,1))
    //運用視窗函式,第二個引數為視窗長度,第三個引數為視窗滑動間隔
    val hotDStream = serachPair.reduceByKeyAndWindow((x:Int,y:Int)=>x+y,Seconds(60),Seconds(20))
  //利用transform運算元獲取前三的排序熱詞
   val result= hotDStream.transform(rdd=>{
      val top3 = rdd.map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(3)
      ssc.sparkContext.makeRDD(top3)
    })
    result.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

SparkStreaming視窗函式的應用

package windon import org.apache.log4j.{Level, Logger} import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext

HIVE 視窗及分析函式應用場景

Sql程式碼 select empno,ename,sum(sal),ntile(5) over (order by sum(sal) desc nulls last) til from emp group by empno,ename; ROW_NUMBER ROW_NUMBER()從1開

SparkStreaming之視窗函式

WindowOperations（視窗操作） Spark還提供了視窗的計算，它允許你使用一個滑動視窗應用在資料變換中。下圖說明了該滑動視窗。如圖所示，每個時間視窗在一個個DStream中劃過，每個DSteam中的RDD進入Window中進行合併，操作時生成為視窗化DS

Postgres中視窗函式lag以lead

sql中我們經常會用到聚合函式，聚合之後它會減少資料量，但是如果我們想把聚合之後的資料和原始資料同時展示出來，那麼我們需要用到視窗函式。 lag視窗函式通過條件把資料劃分成子類，在子類中進行排序視窗函式的通用寫法 select name ,orderdate, cost, su

大資料學習之路105-視窗函式及foreachRDD,foreachPartition,foreach對比

sparkstreaming的視窗函式：視窗函式的作用主要是計算一段時間之內的資料的變化，那麼就會有人產生疑問，為什麼視窗與視窗之間需要重疊呢？其實不重疊也是可以的，但是如果不重疊的話，將來做出來的報表一個時間段與另一個時間段的資料就會產生劇烈的變化。視窗函式可以讓我們一下子操

Python進階(十三)-淺談sorted 函式應用

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十三)-淺談sorted 函式應用

（尤拉函式應用）1040 最大公約數之和

1040 最大公約數之和 1 秒 131,072 KB 80 分 5 級題給出一個n，求1-n這n個數，同n的最大公約數的和。比如：n = 6 1,2,3,4,5,6 同6的最大公約數分別為1,2,

Python量化交易|pd.expanding() VS pd.rolling() 時間視窗函式區別圖解

pandas.rolling()前文已經介紹過了，蟲洞 pandas.expanding() 官方文件 pd.DataFrame.expanding(min_periods=1, center=False, axis=0)

使用pandas時間視窗函式rolling完成量化交易之移動平均線

要想理解移動平均線，先來理解移動平均的概念。移動平均線、乖離率、相對強弱指數、均量線等技術指標都是在移動平均基礎上建立起來的。移動平均線<–移動平均數<–移動平均<–算術平均。 1、2、3、4、5、6、7、8、9、10、11、12、13 前十個數的平均值是5.

Spark非常實用的視窗函式

spark 累加歷史主要用到了視窗函式，而進行全部統計，則需要用到rollup函式 1 應用場景： 1、我們需要統計使用者的總使用時長（累加歷史） 2、前臺展現頁面需要對多個維度進行查詢，如：產品、地區等等 3、需要展現的表格頭如：產品、2015-04、2015-05、20

引用(二)函式應用：列印圖形和數學計算

引用當做實參可變型別與不可變型別的變數分別作為函式引數時，會有什麼不同嗎？ Python有沒有類似C語言中的指標傳參呢？ def test1(b): # 變數b一定是一個區域性變數，就看它指向的是誰？可變還是不可變 b += b # += 是直接對b指向的空間進行修改,而不是讓b指向一個新

函式應用：列印圖形和數學計算

目標感受函式的巢狀呼叫感受程式設計的思路,複雜問題分解為簡單問題思考&實現1 寫一個函式列印一條橫線列印自定義行數的橫線參考程式碼1 #列印一條橫線 def printOneLine(): print("-"*30) #列印多條橫線 def printNumLine

封裝合併arr_combine函式應用

<?php $arr1 = array('a','b','c'); $arr2 = array(100,200,300); //也就說明 a和100都處於第一個元素 // echo "<pre>"; // var_dump(array_combine($

SQL中的視窗函式 OVER視窗函式

SQL/OR 與聚集函式一樣，視窗函式也針對定義的行集（組）執行聚集，但它不像聚集函式那樣每組之返回一個值，視窗函式可以為每組返回多個值。實際上，DB2中稱這種函式為聯機分析處理OLAP函式，而Oracle把它們稱為解析函式，但ISO SQL標準把它們稱為視窗函式。視窗函式一般

函式應用：學生管理系統

import time import os #定一個列表，用來儲存所有的學生資訊(每個學生是一個字典) info_list = [] def print_menu(): print("---------------------------") print(" 學生管理系統 V1.0"

SQL ——視窗函式簡介

目錄 1、視窗函式的描述 2、視窗函式中的元素 2.1、分割槽 2.2、排序 2.3、框架 3、支援視窗函式的查詢元素 4、視窗函式類別 4.1、排名函式 4.2、分佈函式 4.3、偏移函式 1、視窗函式的描述視窗函式作用於

生成器函式應用

在for迴圈中碰到yield會暫停本次迴圈，直到執行下一次__next__()才繼續往下執行程式碼。 def test(): for i in range(5): print('第%s次執行' % i) yield i print(

Hive的視窗函式（附帶上手案例）

目錄視窗函式的概述與總結：可上手案例實操：總結：視窗函式的概述與總結： 1.什麼時候用開窗函式？開窗函式常結合聚合函式使用，一般來講聚合後的行數要少於聚合前的行數，但是有時我們既想顯示聚集前的資料,又要顯示聚集後的資料,這時我們便引入了視窗函式.如下: +--

js高階函式應用—函式柯里化和反柯里化

轉載自shunfa888 在Lambda演算（一套數理邏輯的形式系統，具體我也沒深入研究過）中有個小技巧：假如一個函式只能收一個引數，那麼這個函式怎麼實現加法呢，因為高階函式是可以當引數傳遞和返回值的，所以問題就簡化為：寫一個只有一個引數的函式，而這個函式返回一個帶引數的函

iframe頁面呼叫父視窗,左右視窗函式的方法

iframe裡面的頁面呼叫父視窗,左右視窗js函式的方法實現iframe內部頁面直接呼叫該iframe所屬父視窗自定義函式的方法。比如有A視窗，A內有個IFRAME B，B裡面的裝載的是C頁面，這時C要直接呼叫A裡面的一個自定義函式AFUN(); 那麼只要在C頁面中寫如

SparkStreaming視窗函式的應用

相關推薦