rowsBetween + over視窗函式實際應用

阿新 • • 發佈：2021-07-05

over視窗函式的應用參見我上一篇部落格：https://www.cnblogs.com/wanpi/p/14969000.html

rows between函式：

SQL語句中的rows between unbounded preceding and unbounded following ，其中：
unbounded preceding：表示Long.MIN_VALUE，也就是可視當前行之前的所有資料
unbounded following：表示Long.MAX_VALUE，也就是可視當前行之後的所有資料
current row:表示當前行，也就是0

下面是幾個案例，幫助理解

需求1

A表裡面有三條記錄，欄位是

ID start_time end_time

2018-02-03 2019-02-03

2019-02-04 2020-03-04

2018-08-04 2019-03-04

根據已知的三條記錄用SQL寫出結果為：

2018-02-03 2018-08-04

2018-08-04 2019-02-03

2019-02-03 2019-02-04

2019-02-04 2019-03-04

2019-03-04 2020-03-04

解決思路

1.拆解時間資料

2.升序排列日期

3.視窗函式

程式碼

package method

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.expressions.Window

object OnWindowFunction3 {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("windowfunction").master("local[*]").getOrCreate()
    val rdd = spark.sparkContext.makeRDD(List(

      (1,"2018-02-03","2019-02-03"),
      (2,"2019-02-04","2020-03-04"),
      (3,"2018-08-04","2019-03-04")

    ))

    import spark.implicits._
    val df = rdd.flatMap(t3 => {
      Array(t3._2,t3._3)
    }).toDF("value")
    import org.apache.spark.sql.functions._

    val w1 = Window
      .orderBy($"value" asc)
      .rowsBetween(0,1)
    df
      .withColumn("end_time",max("value") over(w1))
      .show()
    spark.stop()
  }
}

//結果
+----------+----------+
|     value|  end_time|
+----------+----------+
|2018-02-03|2018-08-04|
|2018-08-04|2019-02-03|
|2019-02-03|2019-02-04|
|2019-02-04|2019-03-04|
|2019-03-04|2020-03-04|
|2020-03-04|2020-03-04|
+----------+----------+

需求2

統計網站訪問時長。每個使用者訪問總時長

資料集

findsiteduration.csv

uid,date,dur
111,2019-06-20,1
111,2019-06-21,2
111,2019-06-22,3
222,2019-06-20,4
222,2019-06-21,5
222,2019-06-22,6
333,2019-06-20,7
333,2019-06-21,8
333,2019-06-22,9
444,2019-06-23,10

程式碼

package sparksql

import org.apache.spark.sql.SparkSession
object FindSiteDuration {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("test").master("local[*]").getOrCreate()
    val df = spark.read.option("header",true).csv(".\\resources\\findsiteduration.csv")

    df.createTempView("temp1")

    spark
      .sql(
        """
          |select uid,date,dur,
          |sum(dur) over(partition by uid order by date) as totaldur
          |from temp1
          |""".stripMargin).show()
    spark.stop()
  }
}

//結果
+---+----------+---+--------+
|uid|      date|dur|totaldur|
+---+----------+---+--------+
|111|2019-06-20|  1|     1.0|
|111|2019-06-21|  2|     3.0|
|111|2019-06-22|  3|     6.0|
|444|2019-06-23| 10|    10.0|
|222|2019-06-20|  4|     4.0|
|222|2019-06-21|  5|     9.0|
|222|2019-06-22|  6|    15.0|
|333|2019-06-20|  7|     7.0|
|333|2019-06-21|  8|    15.0|
|333|2019-06-22|  9|    24.0|
+---+----------+---+--------+

//每個使用者訪問當天和前一天兩天訪問時長
    spark
      .sql(
        """
         |select uid,date,dur,
          |sum(dur) over(partition by uid order by date rows between 1 preceding and current row) as totaldur
          |from temp1
          |""".stripMargin).show()

//結果
+---+----------+---+--------+
|uid|      date|dur|totaldur|
+---+----------+---+--------+
|111|2019-06-20|  1|     1.0|
|111|2019-06-21|  2|     3.0|
|111|2019-06-22|  3|     5.0|
|444|2019-06-23| 10|    10.0|
|222|2019-06-20|  4|     4.0|
|222|2019-06-21|  5|     9.0|
|222|2019-06-22|  6|    11.0|
|333|2019-06-20|  7|     7.0|
|333|2019-06-21|  8|    15.0|
|333|2019-06-22|  9|    17.0|
+---+----------+---+--------+

//每個使用者當天和前一天，後一天三天的網站訪問時長

spark
      .sql(
        """
          |select uid,date,dur,
          |sum(dur) over(partition by uid order by date rows between 1 preceding and 1 following) as totaldur
          |from temp1
          |""".stripMargin).show()

//結果
+---+----------+---+--------+
|uid|      date|dur|totaldur|
+---+----------+---+--------+
|111|2019-06-20|  1|     3.0|
|111|2019-06-21|  2|     6.0|
|111|2019-06-22|  3|     5.0|
|444|2019-06-23| 10|    10.0|
|222|2019-06-20|  4|     9.0|
|222|2019-06-21|  5|    15.0|
|222|2019-06-22|  6|    11.0|
|333|2019-06-20|  7|    15.0|
|333|2019-06-21|  8|    24.0|
|333|2019-06-22|  9|    17.0|
+---+----------+---+--------+

rowsBetween + over視窗函式實際應用

over視窗函式的應用參見我上一篇部落格：https://www.cnblogs.com/wanpi/p/14969000.html rows between函式：

ORACLE的SQL練習---8. 視窗函式OVER()

Over()視窗函式最常見的搭配有以下幾種： rank(),dense_rank(),row_number() + over(partition by … order by …) 排名sum(),avg(),count()聚合函式+over(partition by … order by …)max(),min()+over(par

Flink基礎（64）：FLINK SQL(41) 視窗函式（5）OVER視窗

OVER視窗（OVER Window）是傳統資料庫的標準開窗，不同於Group By Window，OVER視窗中每1個元素都對應1個視窗。OVER視窗可以按照實際元素的行或實際的元素值（時間戳值）確定視窗，因此流資料元素可能分佈在多個視

oracle中的視窗函式over()--2

視窗函式視窗函式也稱為OLAP（Online Analytical Processing）函式，意思是對資料庫資料進行實時分析處理，視窗函式在Oracle和SQL Server 中也被稱為分析函式，視窗函式語法如下

PostgreSQL 的視窗函式 OVER, WINDOW, PARTITION BY, RANGE

最近在資料處理中用到了窗函式, 把使用方法記錄一下, 暫時只有分組排序和滑動時間視窗的例子, 以後再逐步新增

[譯] 動態規劃演演算法的實際應用：接縫裁剪

原文地址：Real-world dynamic programming: seam carving 原文作者：Avik Das 譯文出自：掘金翻譯計劃

Mysql8.0使用視窗函式解決排序問題

MySQL視窗函式簡介 MySQL從8.0開始支援視窗函式，這個功能在大多商業資料庫和部分開源資料庫中早已支援，有的也叫分析函式。

MySQL資料庫8——資料庫中函式的應用詳解

資料庫中內建函式的使用該篇主要介紹資料庫中內建函式的使用，主要有日期函式，字串函式，數學函式。

PostgreSQL資料庫中視窗函式的語法與使用

什麼是視窗函式？一個視窗函式在一系列與當前行有某種關聯的錶行上執行一種計算。這與一個聚集函式所完成的計算有可比之處。但是視窗函式並不會使多行被聚整合一個單獨的輸出行，這與通常的非視窗聚集函式不同。取

python pandas移動視窗函式rolling的用法

超級好用的移動視窗函式最近經常使用移動視窗函式，覺得很方便，功能強大，程式碼簡單，故將pandas中的移動視窗函式都做介紹。它都是以rolling打頭的函式，後接具體的函式，來顯示該移動視窗函式的功能。

SparkSQL | 視窗函式

視窗函式的定義引用一個大佬的定義： a window function calculates a return value for every input row of a table based on a group of rows。視窗函式與與其他函式的區別:

delphi的座標變換(ClientToScreen等函式的應用)

注意一點的是，由於函式名 ClientToScreen，被控制元件的方法與API函式同名使用，所以造成在呼叫時delphi優先呼叫控制元件的ClientToScreen方法。如果只想呼叫API函式，那麼可以用 windows.ClientToScreen。原始

淺談python3打包與拆包在函式的應用詳解

1、序列（拆包） *用作序列拆包：*可對字串、列表、集合、元組、字典、數字元素等序列進行拆包

SpringBoot整合WebSocket長連線實際應用詳解

前言：一、WebSocket之初出茅驢官方定義：WebSocket是一種在單個TCP連線上進行全雙工通訊的協議。WebSocket使得客戶端和伺服器之間的資料交換變得更加簡單，允許服務端主動向客戶端推送資料。在WebSocket API中，瀏

MySQL8.0視窗函式實踐及小結

MySQL8.0之前，做資料排名統計等相當痛苦，因為沒有像Oracle、SQL SERVER 、PostgreSQL等其他資料庫那樣的視窗函式。但隨著MySQL8.0中新增了視窗函式之後，針對這類統計就再也不是事了，本文就以常用的排序例項介紹M

MySQL8.0視窗函式入門實踐及總結

前言 MySQL8.0之前，做資料排名統計等相當痛苦，因為沒有像Oracle、SQL SERVER 、PostgreSQL等其他資料庫那樣的視窗函式。但隨著MySQL8.0中新增了視窗函式之後，針對這類統計就再也不是事了，本文就以常用的排序例項

回撥函式和遞迴函式的應用

一.回撥函式意義:回撥函式是一個函式的函式名作為另外一個函式的引數傳入，並且執行

Spring Cloud Alibaba系列（六）sentinel的實際應用

一、sentinel的持久化配置上一章中我們通過Dashboard來為Sentinel客戶端設定各種各樣的規則，但是這些規則預設是存放在記憶體中，極不穩定，無法用於生成環境，所以需要將其持久化。

java-抽象類、介面等實際應用（酒店小案例）

1、酒店小案例某五星級酒店，資金雄厚，要招聘多名員工（經理、廚師、服務員）。入職的員工需要記錄個人資訊（姓名、工號、經理特有獎金屬性）。他們都有自己的工作要做。

Hive視窗函式詳細介紹1

在hive中，視窗函式（又叫開窗函式）具有強大的功能，掌握好視窗函式，能夠幫助我們非常方便的解決很多問題。首先我們要了解什麼是視窗函式，簡單的說視窗函式是hive中一種可以按指定視窗大小計算的函式，例如，sum(

rowsBetween + over視窗函式實際應用

需求1

解決思路

程式碼

需求2

資料集

程式碼

相關推薦