PostgreSQL 的視窗函式 OVER, WINDOW, PARTITION BY, RANGE

阿新 • • 發佈：2022-05-27

最近在資料處理中用到了窗函式, 把使用方法記錄一下, 暫時只有分組排序和滑動時間視窗的例子, 以後再逐步新增

場景

在SQL查詢時, 會遇到有兩類需要分組統計的場景, 在之前的SQL語法中是不方便實現的

場景1: 顧客維修裝置的記錄表, 每次維修產生一條記錄, 每個記錄包含時間, 顧客ID和維修金額, 要取出每個顧客的維修次數和最後一次維修時的金額
場景2: 還是上面的維修記錄表, 要取出每個顧客的每次維修之間的時間間隔
場景3: 一個使用者賬戶的交易流水錶, 要求每個小時的交易筆數和平均收支金額, 這個平均數的統計範圍是兩個小時(整點時間的前後一個小時)

使用窗函式直接SQL中使用窗函式就能解決這些問題, 否則需要使用臨時表, 函式或儲存過程進行處理.

窗函式

PostgreSQL 從2010年的版本8開始就支援窗函數了.

文件

詳細說明建議檢視官方文件 https://www.postgresql.org/docs/current/tutorial-window.html

函式說明

窗函式(window function)的計算方式與傳統的單行和聚合不同

窗函式是在當前表中, 基於當前行的相關行的計算, 注意是基於多行的計算
屬於一種聚合計算, 可以使用聚合型別的函式(aggregate function)
使用窗函式並不會導致結果的聚合, 也就是結果依然是當前的行結構

所以綜合的說, 視窗函式就是在行的基礎上, 允許對多行資料進行計算. 下面是一個簡單的窗函式例子, 將每個員工的薪資與其所在的部門的平均薪資進行比較

SELECT depname, empno, salary, avg(salary) OVER (PARTITION BY depname) FROM empsalary;

關鍵詞

使用窗函式時會用到的一些關鍵詞

OVER 前面的查詢基於後面的視窗
PARTITION BY 類似於 GROUP BY 的語義, 專用於視窗的分組
ORDER BY 窗內的排序依據, 依據的欄位決定了 RANGE 的型別
RANGE ... PRECEDING 在當前值之前的範圍, 基準是當前記錄這個 ORDER BY 欄位的值
RANGE ... FOLLOWING 在當前值之後的範圍, 基準是當前記錄這個 ORDER BY 欄位的值

RANGE BETWEEN ... PRECEDING AND ... FOLLOWING 前後範圍的組合
WINDOW 將視窗命名為變數, 可以在 SELECT 中重複使用

示例

按視窗打序號

功能: 將資料按指定的欄位分組, 再按另一個欄位排列, 給每個分組裡的資料打上序號.

這是一個常用技巧, 例如要計算各組內記錄之間的時間間隔, 但是用時間不方便join, 打完序號後就可以用序號join了

SELECT
    ROW_NUMBER() OVER w1 AS rn,
    sample_01.*
FROM
    sample_01
WINDOW 
w1 AS (PARTITION BY field_name ORDER BY created_at ASC);

簡單時間視窗統計

功能: 將資料表按指定欄位(日期型別)進行排序, 然後基於每個記錄的這個欄位建立一個固定寬度的時間視窗, 對視窗內的多個記錄進行統計

統計單個欄位, 可以直接寫在select中

SELECT
    MAX(amount) OVER (ORDER BY traded_at RANGE '30 minutes' PRECEDING) AS amount_max,
    *
FROM sample_01
WHERE card_num = '6210812500006111111'

基於時間視窗變數進行多欄位統計

功能: 和前一個功能一樣, 但是要進行多個不同的統計, 要重複用到這個視窗函式

如果要統計多個欄位, 可以抽出單獨的WINDOW

SELECT
    MAX(rn) OVER w1 AS rn_max,
    MAX(amount) OVER w1 AS amount_max,
    AVG(amount) OVER w1 AS amount_avg,
    *
FROM sample_01_diff
WINDOW
    -- w1 AS (ORDER BY traded_at RANGE '30 minutes' PRECEDING)
    w1 AS (PARTITION BY card_num ORDER BY traded_at RANGE BETWEEN '30 minutes' PRECEDING AND '30 minutes' FOLLOWING)
ORDER BY
    rn ASC

在這個例子中

先依據 card_num 這個欄位進行分割槽,
然後按 traded_at 這個欄位進行排序,
對每個記錄的 traded_at 值, 開啟一個 RANGE, 包含前面的30分鐘和後面的30分鐘, RANGE 中能用的型別和 ORDER BY 的欄位型別是相關的
SELECT中的 MAX, MIN 等聚合函式, 是基於上面的 RANGE 進行的

In RANGE mode, these options require that the ORDER BY clause specify exactly one column. The offset specifies the maximum difference between the value of that column in the current row and its value in preceding or following rows of the frame. The data type of the offset expression varies depending on the data type of the ordering column. For numeric ordering columns it is typically of the same type as the ordering column, but for datetime ordering columns it is an interval. For example, if the ordering column is of type date or timestamp, one could write RANGE BETWEEN '1 day' PRECEDING AND '10 days' FOLLOWING. The offset is still required to be non-null and non-negative, though the meaning of “non-negative” depends on its data type.

多個視窗多個欄位同時統計

功能: 在前面的功能基礎上, 同時存在多個時間視窗

SELECT
    -- 1 hour
    SUM(amount_in) OVER w1h AS h1_amount_in_sum,
    SUM(
        CASE
            WHEN amount_in = 0 THEN 0
            ELSE 1
        END
    ) OVER w1h AS h1_amount_in_count,
    SUM(amount_out) OVER w1h AS h1_amount_out_sum,
    SUM(
        CASE
            WHEN amount_out = 0 THEN 0
            ELSE 1
        END
    ) OVER w1h AS h1_amount_out_count,
    SUM(amount) OVER w1h AS h1_amount_sum,
    COUNT(amount) OVER w1h AS h1_amount_count,
    ROUND(AVG(amount) OVER w1h, 2) AS h1_amount_avg,
    FIRST_VALUE(amount) OVER w1h AS h1_amount_first,
    LAST_VALUE(amount) OVER w1h AS h1_amount_last,
    MAX(amount) OVER w1h AS h1_amount_max,
    MIN(amount) OVER w1h AS h1_amount_min,
    -- 3 hour
    SUM(amount_in) OVER w3h AS h3_amount_in_sum,
    SUM(
        CASE
            WHEN amount_in = 0 THEN 0
            ELSE 1
        END
    ) OVER w3h AS h3_amount_in_count,
    SUM(amount_out) OVER w3h AS h3_amount_out_sum,
    SUM(
        CASE
            WHEN amount_out = 0 THEN 0
            ELSE 1
        END
    ) OVER w3h AS h3_amount_out_count,
    SUM(amount) OVER w3h AS h3_amount_sum,
    COUNT(amount) OVER w3h AS h3_amount_count,
    ROUND(AVG(amount) OVER w3h, 2) AS h3_amount_avg,
    FIRST_VALUE(amount) OVER w3h AS h3_amount_first,
    LAST_VALUE(amount) OVER w3h AS h3_amount_last,
    MAX(amount) OVER w3h AS h3_amount_max,
    MIN(amount) OVER w3h AS h3_amount_min,
    *
FROM sample_01
WINDOW
    w1h AS (PARTITION BY card_num ORDER BY traded_at RANGE BETWEEN '30 minutes' PRECEDING AND '30 minutes' FOLLOWING),
    w3h AS (PARTITION BY card_num ORDER BY traded_at RANGE BETWEEN '90 minutes' PRECEDING AND '90 minutes' FOLLOWING)
;

參考

PostgreSQL 的視窗函式 OVER, WINDOW, PARTITION BY, RANGE

最近在資料處理中用到了窗函式, 把使用方法記錄一下, 暫時只有分組排序和滑動時間視窗的例子, 以後再逐步新增

ORACLE的SQL練習---8. 視窗函式OVER()

Over()視窗函式最常見的搭配有以下幾種： rank(),dense_rank(),row_number() + over(partition by … order by …) 排名sum(),avg(),count()聚合函式+over(partition by … order by …)max(),min()+over(par

oracle中的視窗函式over()--2

視窗函式視窗函式也稱為OLAP（Online Analytical Processing）函式，意思是對資料庫資料進行實時分析處理，視窗函式在Oracle和SQL Server 中也被稱為分析函式，視窗函式語法如下

OVER(PARTITION BY)函式介紹

問題場景　　　　最近在專案中遇到了對每一個型別進行求和並且求該型別所佔的比例，當時考慮求出每種型別的和，並在java中分別對每一種型別的和與總和相除求出所佔比例。後來，想到這樣有點麻煩，並且專案中持久層使

builder forms oracle 函式如何使用_Oracle 分析函式row_number() over (partition by order by )的使用...

技術標籤：builder forms oracle 函式如何使用 1、格式 row_number() over(partition by 列名1 order by 列名2 desc)

PostgreSQL資料庫中視窗函式的語法與使用

什麼是視窗函式？一個視窗函式在一系列與當前行有某種關聯的錶行上執行一種計算。這與一個聚集函式所完成的計算有可比之處。但是視窗函式並不會使多行被聚整合一個單獨的輸出行，這與通常的非視窗聚集函式不同。取

Oracle查詢中OVER (PARTITION BY ..)用法

為了方便大家學習和測試，所有的例子都是在Oracle自帶使用者Scott下建立的。

MySQL5.7 over partition by

獲取 code 分組中 max(version) max(batch) 最大的記錄 ``` CREATE TABLE t ( `id` int(11) , `code`int(11) ,

count()/sum() over(partition by) 詳解

技術標籤：資料開發 1、建立表 create table orderinfo--訂單資訊表 ( order_noVARCHAR2(20) , --訂單號

row_number() over(partition by) 和 first_value over(partition by) 實用例子和二者區別。Mysql和Hive分別實現取組內最大條資料

技術標籤：Mysqlhivehivemysql 需求: 1：id有5組, 現在要求出各組內薪資最高得那個人

rowsBetween + over視窗函式實際應用

over視窗函式的應用參見我上一篇部落格：https://www.cnblogs.com/wanpi/p/14969000.html rows between函式：

用over進行開窗 distribute by sort by和partition by order by 用於去重哪個效率比較高？

1.用over開窗時，distribute by sort by換成partition by order by，分割槽表、分桶表、非分割槽表的執行計劃都一樣，1.10版本都是一樣的--測試後時間上基本無差別2.對分桶表進行測試，如果分桶的欄位和distribute

Flink基礎（64）：FLINK SQL(41) 視窗函式（5）OVER視窗

OVER視窗（OVER Window）是傳統資料庫的標準開窗，不同於Group By Window，OVER視窗中每1個元素都對應1個視窗。OVER視窗可以按照實際元素的行或實際的元素值（時間戳值）確定視窗，因此流資料元素可能分佈在多個視

group by 和 over(partition by)的區別

轉自： https://blog.csdn.net/dwt1415403329/article/details/87835383 insert all into Employee values(1,\'張三\',\'5000\',\'開發部\')

sql over partition by

over partition by與group by 的區別 Over Partition by 與Group by 的區別例如：有三條資料

【SQL Server】分割槽函式 partition by

group by是分組函式，partition by是分割槽函式，sum()等是聚合函式函式寫法 over(partition by Course order by Score)

row_number() over(partition by 列名1 order by 列名2 desc)的使用

表示根據列名1分組，然後在分組內部根據列名2排序，而此函式計算的值就表示每組內部排序後的順序編號,可以用於去重複值

ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)/ ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY CO

ROWNUMBER() OVER( PARTITION BY COL1 ORDER BY COL2)用法今天在使用多欄位去重時，由於某些欄位有多種可能性，只需根據部分欄位進行去重，在網上看到了rownumber() over(partition by col1 ord

【視窗函式和group by 一起使用的案例】

建立一張表，包括時間、學生學號、考勤狀態 insert into px_data_test_temp.temp_stu_attendance_tb

Mysql8.0使用視窗函式解決排序問題

MySQL視窗函式簡介 MySQL從8.0開始支援視窗函式，這個功能在大多商業資料庫和部分開源資料庫中早已支援，有的也叫分析函式。

PostgreSQL 的視窗函式 OVER, WINDOW, PARTITION BY, RANGE

場景

窗函式

文件

函式說明

關鍵詞

示例

按視窗打序號

簡單時間視窗統計

基於時間視窗變數進行多欄位統計

多個視窗多個欄位同時統計

參考

相關推薦