SparkSQL | 視窗函式

阿新 • • 發佈：2020-03-01

視窗函式的定義引用一個大佬的定義： a window function calculates a return value for every input row of a table based on a group of rows。視窗函式與與其他函式的區別:

普通函式: 作用於每一條記錄，計算出一個新列(記錄數不變);
聚合函式: 作用於一組記錄(全部資料按照某種方式分為多組)，計算出一個聚合值(記錄數變小);
視窗函式: 作用於每一條記錄，逐條記錄去指定多條記錄來計算一個值(記錄數不變)。

視窗函式語法結構: 函式名(引數)OVER(PARTITION BY 子句 ORDER BY 子句 ROWS/RANGE子句)

函式名:
OVER: 關鍵字，說明這是視窗函式，不是普通的聚合函式；
子句
- PARTITION BY: 分組欄位
- ORDER BY: 排序欄位
- ROWS/RANG視窗子句: 用於控制視窗的尺寸邊界，有兩種(ROW,RANGE)
  - ROW: 物理視窗，資料篩選基於排序後的index
  - RANGE: 邏輯視窗，資料篩選基於值

主要有以下三種視窗函式

ranking functions
analytic functions
aggregate functions

資料載入

from pyspark.sql.types import *


schema = StructType().add('name',StringType(),True).add('department',True).add('salary',IntegerType(),True)
df = spark.createDataFrame([
    ("Tom","Sales",4500),("Georgi",4200),("Kyoichi",3000),("Berni",4700),("Guoxiang",("Parto","Finance",2700),("Anneke",3300),("Sumant",3900),("Jeff","Marketing",3100),("Patricio",2500)
],schema=schema)
df.createOrReplaceTempView('salary')
df.show()

+--------+----------+------+
|    name|department|salary|
+--------+----------+------+
|     Tom|     Sales|  4500|
|  Georgi|     Sales|  4200|
| Kyoichi|     Sales|  3000|
|   Berni|     Sales|  4700|
|Guoxiang|     Sales|  4200|
|   Parto|   Finance|  2700|
|  Anneke|   Finance|  3300|
|  Sumant|   Finance|  3900|
|    Jeff| Marketing|  3100|
|Patricio| Marketing|  2500|
+--------+----------+------+

ranking functions

sql	DataFrame	功能
row_number	rowNumber	從1~n的唯一序號值
rank	rank	與denseRank一樣，都是排名，對於相同的數值，排名一致。區別：rank不會跳過並列的排名
dense_rank	denseRank	同rank
percent_rank	percentRank	計算公式: (組內排名-1)/(組內行數-1),如果組內只有1行，則結果為0
ntile	ntile	將組內資料排序後，按照指定的n切分為n個桶，該值為當前行的桶號(桶號從1開始)

spark.sql("""
SELECT
    name,department,salary,row_number() over(partition by department order by salary) as index,rank() over(partition by department order by salary) as rank,dense_rank() over(partition by department order by salary) as dense_rank,percent_rank() over(partition by department order by salary) as percent_rank,ntile(2) over(partition by department order by salary) as ntile
FROM salary
""").toPandas()

	name	department	salary	index	rank	dense_rank	percent_rank	ntile
0	Patricio	Marketing	2500	1	1	1	0.00	1
1	Jeff	Marketing	3100	2	2	2	1.00	2
2	Kyoichi	Sales	3000	1	1	1	0.00	1
3	Georgi	Sales	4200	2	2	2	0.25	1
4	Guoxiang	Sales	4200	3	2	2	0.25	1
5	Tom	Sales	4500	4	4	3	0.75	2
6	Berni	Sales	4700	5	5	4	1.00	2
7	Parto	Finance	2700	1	1	1	0.00	1
8	Anneke	Finance	3300	2	2	2	0.50	1
9	Sumant	Finance	3900	3	3	3	1.00	2

analytic functions

sql	DataFrame	功能
cume_dist	cumeDist	計算公式: 組內小於等於值當前行數/組內總行數
lag	lag	`lag(input,[offset,[default]])` 當前index<offset返回defalult(預設defalult=null),否則返回input
lead	lead	與lag相反

spark.sql("""
SELECT
    name,cume_dist() over(partition by department order by salary) as cume_dist,lag('salary',2) over(partition by department order by salary) as lag,lead('salary',2) over(partition by department order by salary) as lead    
    
FROM salary
""").toPandas()

	name	department	salary	index	cume_dist	lag	lead
0	Patricio	Marketing	2500	1	0.500000	None	None
1	Jeff	Marketing	3100	2	1.000000	None	None
2	Kyoichi	Sales	3000	1	0.200000	None	salary
3	Georgi	Sales	4200	2	0.600000	None	salary
4	Guoxiang	Sales	4200	3	0.600000	salary	salary
5	Tom	Sales	4500	4	0.800000	salary	None
6	Berni	Sales	4700	5	1.000000	salary	None
7	Parto	Finance	2700	1	0.333333	None	salary
8	Anneke	Finance	3300	2	0.666667	None	None
9	Sumant	Finance	3900	3	1.000000	salary	None

aggregate functions

只是在一定窗口裡實現一些普通的聚合函式。

sql	功能
avg	平均值
sum	求和
min	最小值
max	最大值

spark.sql("""
SELECT
    name,sum(salary) over(partition by department order by salary) as sum,avg(salary) over(partition by department order by salary) as avg,min(salary) over(partition by department order by salary) as min,max(salary) over(partition by department order by salary) as max    
FROM salary
""").toPandas()

	name	department	salary	index	sum	avg	min	max
0	Patricio	Marketing	2500	1	2500	2500.0	2500	2500
1	Jeff	Marketing	3100	2	5600	2800.0	2500	3100
2	Kyoichi	Sales	3000	1	3000	3000.0	3000	3000
3	Georgi	Sales	4200	2	11400	3800.0	3000	4200
4	Guoxiang	Sales	4200	3	11400	3800.0	3000	4200
5	Tom	Sales	4500	4	15900	3975.0	3000	4500
6	Berni	Sales	4700	5	20600	4120.0	3000	4700
7	Parto	Finance	2700	1	2700	2700.0	2700	2700
8	Anneke	Finance	3300	2	6000	3000.0	2700	3300
9	Sumant	Finance	3900	3	9900	3300.0	2700	3900

視窗子句

ROWS/RANG視窗子句: 用於控制視窗的尺寸邊界，有兩種(ROW,RANGE)

ROWS: 物理視窗，資料篩選基於排序後的index
RANGE: 邏輯視窗，資料篩選基於值

語法：OVER (PARTITION BY … ORDER BY … frame_type BETWEEN start AND end)

有以下5種邊界

CURRENT ROW:
UNBOUNDED PRECEDING: 分割槽第一行
UNBOUNDED FOLLOWING: 分割槽最後一行
n PRECEDING: 前n行
n FOLLOWING: 後n行
UNBOUNDED: 起點

spark.sql("""
SELECT
    name,row_number() over(partition by department order by salary rows between UNBOUNDED PRECEDING and CURRENT ROW) as index1
FROM salary
""").toPandas()

	name	department	salary	index	index1
0	Patricio	Marketing	2500	1	1
1	Jeff	Marketing	3100	2	2
2	Kyoichi	Sales	3000	1	1
3	Georgi	Sales	4200	2	2
4	Guoxiang	Sales	4200	3	3
5	Tom	Sales	4500	4	4
6	Berni	Sales	4700	5	5
7	Parto	Finance	2700	1	1
8	Anneke	Finance	3300	2	2
9	Sumant	Finance	3900	3	3

混合應用

spark.sql("""
SELECT
    name,salary - (min(salary) over(partition by department order by salary)) as salary_diff 
FROM salary
""").toPandas()

	name	department	salary	index	salary_diff
0	Patricio	Marketing	2500	1	0
1	Jeff	Marketing	3100	2	600
2	Kyoichi	Sales	3000	1	0
3	Georgi	Sales	4200	2	1200
4	Guoxiang	Sales	4200	3	1200
5	Tom	Sales	4500	4	1500
6	Berni	Sales	4700	5	1700
7	Parto	Finance	2700	1	0
8	Anneke	Finance	3300	2	600
9	Sumant	Finance	3900	3	1200

參考

SparkSQL | 視窗函式

視窗函式的定義引用一個大佬的定義： a window function calculates a return value for every input row of a table based on a group of rows。視窗函式與與其他函式的區別:

Mysql8.0使用視窗函式解決排序問題

MySQL視窗函式簡介 MySQL從8.0開始支援視窗函式，這個功能在大多商業資料庫和部分開源資料庫中早已支援，有的也叫分析函式。

PostgreSQL資料庫中視窗函式的語法與使用

什麼是視窗函式？一個視窗函式在一系列與當前行有某種關聯的錶行上執行一種計算。這與一個聚集函式所完成的計算有可比之處。但是視窗函式並不會使多行被聚整合一個單獨的輸出行，這與通常的非視窗聚集函式不同。取

python pandas移動視窗函式rolling的用法

超級好用的移動視窗函式最近經常使用移動視窗函式，覺得很方便，功能強大，程式碼簡單，故將pandas中的移動視窗函式都做介紹。它都是以rolling打頭的函式，後接具體的函式，來顯示該移動視窗函式的功能。

MySQL8.0視窗函式實踐及小結

MySQL8.0之前，做資料排名統計等相當痛苦，因為沒有像Oracle、SQL SERVER 、PostgreSQL等其他資料庫那樣的視窗函式。但隨著MySQL8.0中新增了視窗函式之後，針對這類統計就再也不是事了，本文就以常用的排序例項介紹M

MySQL8.0視窗函式入門實踐及總結

前言 MySQL8.0之前，做資料排名統計等相當痛苦，因為沒有像Oracle、SQL SERVER 、PostgreSQL等其他資料庫那樣的視窗函式。但隨著MySQL8.0中新增了視窗函式之後，針對這類統計就再也不是事了，本文就以常用的排序例項

Hive視窗函式詳細介紹1

在hive中，視窗函式（又叫開窗函式）具有強大的功能，掌握好視窗函式，能夠幫助我們非常方便的解決很多問題。首先我們要了解什麼是視窗函式，簡單的說視窗函式是hive中一種可以按指定視窗大小計算的函式，例如，sum(

Hive視窗函式詳細介紹2，rank()，dense_rank() ,row_number()

在hive中，有三種視窗函式，rank(),dense_rank() 和row_number() 可以在視窗內實現對資料的排序。現在主要介紹這三個視窗函式的區別

Hive 視窗函式詳細介紹3 lag，lead，first_value，last_value

這篇文章繼續介紹4個視窗函式。 lag lag(column_name,n,default):用於統計視窗內往上第n行的值，第一個引數為列名，第二個引數為往上第n行（可選，預設為1），第三個引數為預設值（當往上n行為null時，取預設值，若不

Hive常用函式大全（視窗函式、分析函式）

1、相關函式 1.1 視窗函式 FIRST_VALUE：取分組內排序後，截止到當前行，第一個值

mysql8學習筆記⑨視窗函式

前言MySQL8.0之前，做資料排名統計等相當痛苦，因為沒有像Oracle、SQL SERVER 、PostgreSQL等其他資料庫那樣的視窗函式。但隨著MySQL8.0中新增了視窗函式之後，針對這類統計就再也不是事了，本文就以常用的排序例項介

轉載：hive視窗函式必備寶典

原始連結：https://blog.csdn.net/dingchangxiu11/article/details/83145151 hive視窗函式必備寶典

SQL視窗函式

引用知乎猴子大神的文章：連結地址：https://zhuanlan.zhihu.com/p/92654574 一.視窗函式有什麼用？在日常工作中，經常會遇到需要在每組內排名，比如下面的業務需求：

MySQL 視窗函式

原文引用猴子通俗易懂的學會：SQL視窗函式一.視窗函式有什麼用？在日常工作中，經常會遇到需要在每組內排名，比如下面的業務需求：

mysql8.0 視窗函式排序 leetcode筆記

HIVE視窗函式

hive視窗函式視窗函式是什麼？視窗函式指定了函式工作的資料視窗大小，這個資料視窗大小可能會隨著行的變化而變化。

Mysql-視窗函式

學習連線：https://blog.csdn.net/weixin_39010770/article/details/87862407 視窗：記錄集合視窗函式：在滿足某些條件的記錄集合上執行的特殊函式，對於每條記錄都要在此視窗內執行函式。有的函式隨著記錄

ORACLE的SQL練習---8. 視窗函式OVER()

Over()視窗函式最常見的搭配有以下幾種： rank(),dense_rank(),row_number() + over(partition by … order by …) 排名sum(),avg(),count()聚合函式+over(partition by … order by …)max(),min()+over(par

c++ log函式_資料分析系列：SQL筆試總結之神奇的視窗函式

技術標籤：c++ log函式datatable的資料進行組內排序什麼是視窗函式？視窗函式就是類似於group by聚合函式，但又不同於聚合函式。聚合函式是將組內多個數據聚合成一個值，而視窗函式除了可以將組內資料聚合

ch-11-移動視窗函式

技術標籤：資料類序列資料python資料分析移動視窗函式移動視窗函式可以理解為時FIR濾波器，只不過這裡是濾波器在運動，而不是訊號在運動。但是從相對運動的角度來說，移動視窗函式就是FIR濾波器

SparkSQL | 視窗函式

資料載入

ranking functions

analytic functions

aggregate functions

視窗子句

混合應用

參考

相關推薦