Hive的視窗函式（附帶上手案例）

阿新 • • 發佈：2018-12-04

視窗函式的概述與總結：

1.什麼時候用開窗函式？開窗函式常結合聚合函式使用，一般來講聚合後的行數要少於聚合前的行數，但是有時我們既想顯示聚集前的資料,又要顯示聚集後的資料,這時我們便引入了視窗函式.如下:

+-------+-------------+-------+---------------+--+
| name  |  orderdate  | cost  | sum_window_0  |
+-------+-------------+-------+---------------+--+
| jack  | 2017-01-01  | 10    | 205           |
| jack  | 2017-01-08  | 55    | 205           |
| tony  | 2017-01-07  | 50    | 205           |
| jack  | 2017-01-05  | 46    | 205           |
| tony  | 2017-01-04  | 29    | 205           |
| tony  | 2017-01-02  | 15    | 205           |
| jack  | 2017-02-03  | 23    | 23            |
| mart  | 2017-04-13  | 94    | 341           |
| jack  | 2017-04-06  | 42    | 341           |
| mart  | 2017-04-11  | 75    | 341           |
| mart  | 2017-04-09  | 68    | 341           |
| mart  | 2017-04-08  | 62    | 341           |
| neil  | 2017-05-10  | 12    | 12            |
| neil  | 2017-06-12  | 80    | 80            |
+-------+-------------+-------+---------------+--

2.視窗函式的語法：

UDAF() over (PARTITION By col1，col2 order by col3 視窗子句（rows between .. and ..）) AS 列別名

注意：PARTITION By後可跟多個欄位，order By只跟一個欄位。

partition by子句：
一旦指定了partition by子句，聚合函式的作用範圍就是分割槽之後的資料，這一點和group by 有些類似

order by子句：
order by子句對欄位進行排序，如果order by子句後面沒有跟rows between ** and ** 則表示起點到當前行
的聚合。order by後的rows子句近一步限制聚合函式的作用範圍。

視窗子句
CURRENT ROW：當前行
n PRECEDING：往前n行資料
n FOLLOWING：往後n行資料
UNBOUNDED：起點，UNBOUNDED PRECEDING 表示從前面的起點， UNBOUNDED FOLLOWING表示到後面的終點
視窗子句對聚合函式的聚合範圍作進一步的動態劃分，沒有指定的時候，預設為起點到當前行的聚合

注意：
（1）order by必須跟在partition by後;
（2）Rows必須跟在Order by子；
（3）（partition by .. order by）可替換為（distribute by .. sort by ..）

可上手案例實操：

資料的準備：
[[email protected] datas]$ cat business.txt 
jack,2017-01-01,10
tony,2017-01-02,15
jack,2017-02-03,23
tony,2017-01-04,29
jack,2017-01-05,46
jack,2017-04-06,42
tony,2017-01-07,50
jack,2017-01-08,55
mart,2017-04-08,62
mart,2017-04-09,68
neil,2017-05-10,12
mart,2017-04-11,75
neil,2017-06-12,80
mart,2017-04-13,94

需求：
（1）查詢在2017年4月份購買過的顧客及總人數
（2）查詢顧客的購買明細及月購買總額
（3）上述的場景, 將每個顧客的cost按照日期進行累加
（4）查詢每個顧客上次的購買時間
（5）查詢前20%時間的訂單資訊

建立hive表並匯入資料：

create table business(name string,orderdate string,cost int)
row format delimited
fields terminated by ',';

load data local inpath '/opt/module/datas/business.txt' into table business;

0: jdbc:hive2://hadoop108:10000> select * from business;
+----------------+---------------------+----------------+--+
| business.name  | business.orderdate  | business.cost  |
+----------------+---------------------+----------------+--+
| jack           | 2017-01-01          | 10             |
| tony           | 2017-01-02          | 15             |
| jack           | 2017-02-03          | 23             |
| tony           | 2017-01-04          | 29             |
| jack           | 2017-01-05          | 46             |
| jack           | 2017-04-06          | 42             |
| tony           | 2017-01-07          | 50             |
| jack           | 2017-01-08          | 55             |
| mart           | 2017-04-08          | 62             |
| mart           | 2017-04-09          | 68             |
| neil           | 2017-05-10          | 12             |
| mart           | 2017-04-11          | 75             |
| neil           | 2017-06-12          | 80             |
| mart           | 2017-04-13          | 94             |
+----------------+---------------------+----------------+--+


（1）查詢在2017年4月份購買過的顧客及總人數:
分析過程：四月份的資料如下：
| jack           | 2017-04-06          | 42             |
| mart           | 2017-04-08          | 62             |
| mart           | 2017-04-09          | 68             |
| mart           | 2017-04-11          | 75             |
| mart           | 2017-04-13          | 94             |

最後的輸出結果應該是長成這個樣子：
jack 2
mart 2

我們一起來理解一下聚合函式，下面的這個聚合函式，將business表中的所有內容作為輸入，輸入到聚合函式中去
select count(*) from business;
+------+--+
| _c0  |
+------+--+
| 14   |
+------+--+


下面的這個聚合函式，作用在分組的資料中，這樣一來，聚合函式的作用物件就是組，即如果是同一個組，會作為輸入，輸入到聚合函式中去。
select name,count(*)
from business
where orderdate like '2017-04%'
group by name;

+-------+------+--+
| name  | _c1  |
+-------+------+--+
| jack  | 1    |
| mart  | 4    |
+-------+------+--+
上面的這個結果很明顯並不是我們想要的，因為這裡是將一個組的內容作為輸入輸入到聚合函式中去的，所以此時統計的是name的個數。我們
想要的結果是：將這兩行的內容作為聚合函式的輸入。我們可以使用視窗函式實現：

select name,count(*) over()
from business
where orderdate like '2017-04%'
group by name;

+-------+-----------------+--+
| name  | count_window_0  |
+-------+-----------------+--+
| mart  | 2               |
| jack  | 2               |
+-------+-----------------+--+


（2）查詢顧客的購買明細及月購買總額
這裡面是月購買總額，所以應該以月份來進行分組，同樣月份的進入聚合函式，這裡既要顯示原來的資料，
又要顯示聚合之後的資料，所以使用視窗函式。

select *,sum(cost) over(partition by month(orderdate)) 
from business；

+----------------+---------------------+----------------+---------------+--+
| business.name  | business.orderdate  | business.cost  | sum_window_0  |
+----------------+---------------------+----------------+---------------+--+
| jack           | 2017-01-01          | 10             | 205           |
| jack           | 2017-01-08          | 55             | 205           |
| tony           | 2017-01-07          | 50             | 205           |
| jack           | 2017-01-05          | 46             | 205           |
| tony           | 2017-01-04          | 29             | 205           |
| tony           | 2017-01-02          | 15             | 205           |
| jack           | 2017-02-03          | 23             | 23            |
| mart           | 2017-04-13          | 94             | 341           |
| jack           | 2017-04-06          | 42             | 341           |
| mart           | 2017-04-11          | 75             | 341           |
| mart           | 2017-04-09          | 68             | 341           |
| mart           | 2017-04-08          | 62             | 341           |
| neil           | 2017-05-10          | 12             | 12            |
| neil           | 2017-06-12          | 80             | 80            |
+----------------+---------------------+----------------+---------------+--+

（3） 將每個顧客的cost按照日期進行累加
這裡面需要將每一個顧客的cost累加，所以要對name進行分組，按照日期進行累加，應該對於日期進行排序，
這樣才好一行一行的累加。

select *,sum(cost) over(partition by name  order by orderdate)
from business;

+----------------+---------------------+----------------+---------------+--+
| business.name  | business.orderdate  | business.cost  | sum_window_0  |
+----------------+---------------------+----------------+---------------+--+
| jack           | 2017-01-01          | 10             | 10            |
| jack           | 2017-01-05          | 46             | 56            |
| jack           | 2017-01-08          | 55             | 111           |
| jack           | 2017-02-03          | 23             | 134           |
| jack           | 2017-04-06          | 42             | 176           |
| mart           | 2017-04-08          | 62             | 62            |
| mart           | 2017-04-09          | 68             | 130           |
| mart           | 2017-04-11          | 75             | 205           |
| mart           | 2017-04-13          | 94             | 299           |
| neil           | 2017-05-10          | 12             | 12            |
| neil           | 2017-06-12          | 80             | 92            |
| tony           | 2017-01-02          | 15             | 15            |
| tony           | 2017-01-04          | 29             | 44            |
| tony           | 2017-01-07          | 50             | 94            |
+----------------+---------------------+----------------+---------------+--+

除了上面的這種方式，我們還可以使用視窗子句來實現：
select *,sum(cost) over(partition by name order by orderdate
rows between UNBOUNDED PRECEDING and CURRENT ROW)
from business;
+----------------+---------------------+----------------+---------------+--+
| business.name  | business.orderdate  | business.cost  | sum_window_0  |
+----------------+---------------------+----------------+---------------+--+
| jack           | 2017-01-01          | 10             | 10            |
| jack           | 2017-01-05          | 46             | 56            |
| jack           | 2017-01-08          | 55             | 111           |
| jack           | 2017-02-03          | 23             | 134           |
| jack           | 2017-04-06          | 42             | 176           |
| mart           | 2017-04-08          | 62             | 62            |
| mart           | 2017-04-09          | 68             | 130           |
| mart           | 2017-04-11          | 75             | 205           |
| mart           | 2017-04-13          | 94             | 299           |
| neil           | 2017-05-10          | 12             | 12            |
| neil           | 2017-06-12          | 80             | 92            |
| tony           | 2017-01-02          | 15             | 15            |
| tony           | 2017-01-04          | 29             | 44            |
| tony           | 2017-01-07          | 50             | 94            |
+----------------+---------------------+----------------+---------------+--+


（4）查詢每個顧客上次的購買時間
對name 分割槽，對時間排序，例如下面的這個樣子
+----------------+---------------------+----------------+--+
| business.name  | business.orderdate  | business.cost  | date
+----------------+---------------------+----------------+--+
| jack           | 2017-01-01          | 10             | null
| jack           | 2017-01-05          | 46             | 2017-01-01
| jack           | 2017-02-03          | 23             | 2017-01-05 
| jack           | 2017-04-06          | 42             | 2017-02-03
| tony           | 2017-01-02          | 15             | null
| tony           | 2017-01-04          | 29             | 2017-01-02

select *,lag(orderdate,1,'-1') over(partition by name order by orderdate)
from business;
+----------------+---------------------+----------------+---------------+--+
| business.name  | business.orderdate  | business.cost  | lag_window_0  |
+----------------+---------------------+----------------+---------------+--+
| jack           | 2017-01-01          | 10             | -1            |
| jack           | 2017-01-05          | 46             | 2017-01-01    |
| jack           | 2017-01-08          | 55             | 2017-01-05    |
| jack           | 2017-02-03          | 23             | 2017-01-08    |
| jack           | 2017-04-06          | 42             | 2017-02-03    |
| mart           | 2017-04-08          | 62             | -1            |
| mart           | 2017-04-09          | 68             | 2017-04-08    |
| mart           | 2017-04-11          | 75             | 2017-04-09    |
| mart           | 2017-04-13          | 94             | 2017-04-11    |
| neil           | 2017-05-10          | 12             | -1            |
| neil           | 2017-06-12          | 80             | 2017-05-10    |
| tony           | 2017-01-02          | 15             | -1            |
| tony           | 2017-01-04          | 29             | 2017-01-02    |
| tony           | 2017-01-07          | 50             | 2017-01-04    |
+----------------+---------------------+----------------+---------------+--+


（5）查詢前20%時間的訂單資訊
20%需要對時間進行排序，取到其中的20%，輸入全部，得到20%，使用Ntail聚合函式

t1:
select *,NTILE(5) over(order by orderdate) num
from business ; 
+----------------+---------------------+----------------+------+--+
| business.name  | business.orderdate  | business.cost  | num  |
+----------------+---------------------+----------------+------+--+
| jack           | 2017-01-01          | 10             | 1    |
| tony           | 2017-01-02          | 15             | 1    |
| tony           | 2017-01-04          | 29             | 1    |
| jack           | 2017-01-05          | 46             | 2    |
| tony           | 2017-01-07          | 50             | 2    |
| jack           | 2017-01-08          | 55             | 2    |
| jack           | 2017-02-03          | 23             | 3    |
| jack           | 2017-04-06          | 42             | 3    |
| mart           | 2017-04-08          | 62             | 3    |
| mart           | 2017-04-09          | 68             | 4    |
| mart           | 2017-04-11          | 75             | 4    |
| mart           | 2017-04-13          | 94             | 4    |
| neil           | 2017-05-10          | 12             | 5    |
| neil           | 2017-06-12          | 80             | 5    |
+----------------+---------------------+----------------+------+--+


select * from
(select *,NTILE(5) over(order by orderdate) num
from business ) t1
where num = 1;
+----------+---------------+----------+---------+--+
| t1.name  | t1.orderdate  | t1.cost  | t1.num  |
+----------+---------------+----------+---------+--+
| jack     | 2017-01-01    | 10       | 1       |
| tony     | 2017-01-02    | 15       | 1       |
| tony     | 2017-01-04    | 29       | 1       |
+----------+---------------+----------+---------+--+

總結：

①理解視窗函式的前提是深入理解聚合函式，理解聚合函式，就是要理解聚合函式的作用範圍，首先沒有任何修飾的聚合函式的作用範圍是全體的資料；其次有group by的聚合函式，聚合函式對同組的資料聚合；有了partition by 的範圍也是組內的資料；有了視窗子句之後，視窗子句會進一步限制聚合函式的作用範圍。②既想顯示聚集前的資料,又要顯示聚集後的資料，使用視窗函式，因為select 後面的欄位必須是聚合函式和group by 欄位，如果想顯示其他欄位，group by做不到，就得使用視窗函式。

Hive的視窗函式（附帶上手案例）

目錄視窗函式的概述與總結：可上手案例實操：總結：視窗函式的概述與總結： 1.什麼時候用開窗函式？開窗函式常結合聚合函式使用，一般來講聚合後的行數要少於聚合前的行數，但是有時我們既想顯示聚集前的資料,又要顯示聚集後的資料,這時我們便引入了視窗函式.如下: +--

【gp資料庫】查詢模式下所有函式名稱（附帶引數資訊）

本篇主要目的是查詢模式下函式名稱，其中用到自定義型別轉換的方法，為了將引數拼接起來 pg_pro表儲存函式資訊，其中proargtypes欄位表示輸入引數型別。這個欄位是oidvector型別的，查了好多資料也沒找到這是個啥型別，怎麼和pg_type.oid做關聯。於是還是自定義型別轉換吧！

CentOS7下配置網絡yum源（附帶下載地址）

tro arch all 運行 help soc 1-1 centos6 earch 一、查看外網是否通暢配置網絡yum源(需要保證外網開通，我這裏是使用網易163提供開源鏡像站) 二、下載repo文件 cd /etc/yum.repos.dwget http:

讀懂掌握 Python logging 模塊源碼（附帶一些 example）

深度 blog enc 自己 gin reference 文章 amp 常用搜了一下自己的 Blog 一直缺乏一篇 Python logging 模塊的深度使用的文章。其實這個模塊非常常用，也有非常多的濫用。所以看看源碼來詳細記錄一篇屬於 logging 模塊的文章。 c

關於這道填空題，你會如何回答？（附帶學習連結）

曾經有一篇百萬閱讀量的爆文，裡面出了道填空題，問： ____是銅牌，____是銀牌，____是金牌，____是王牌。小白的答案是：Java是銅牌，Linux是銀牌，Hadoop是金牌，大資料是王牌。因為Java是學大資料的基礎，有基礎然後就可以學後續的；

機器學習基礎（六）—— 交叉熵代價函式（cross-entropy error）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

javascript面向物件程式設計--惰性載入函式（瀏覽器相容性處理）

因為各大瀏覽器所使用的JS引擎不同，所以在實現某一個功能時都或多或少的存在差異，導致在寫程式碼時要針對每一個功能給出相容瀏覽器的不同實現方式，這樣在執行程式碼時就會造成效能的損耗。所以就出現了惰性載入函式的概念。原理就是：當前瀏覽器第一次支援以該方法實現某功能，那麼在這個頁面執行期間會一直都支援該方

PHP銀行卡校驗函式（16-19位）

網上有很多校驗函式，但是在專案中我發現有一些新的銀行卡號通過不了校驗，百度上好幾個瀏覽量高的函式都不能用。試了好多函式終於發現有一個函式適用於國內的主流銀行卡號（有一些銀行沒有測到，測到的都支援） function checkBankCard($card){ $arr_no

python中一些常用的函式（不定時更新）

一、random函式 import random # 在1~20中隨機取一個數 print(random.choice(range(1, 20))) 9 # 在1~20中隨機取五個陣列成一個列表 print(random.choices(range(1, 20), k=5)) [3, 1

MUI框架-12-使用原生底部選項卡（凸出圖示案例）

MUI框架-12-使用原生底部選項卡（凸出圖示案例）今天，用 mui 做 app 時，遇到了可能各位都遇到過的頭疼問題：底部中間圖示凸起，如下圖：最後有原始碼【提示】：有人問我在 HBuilder 中看不到底部欄，請不要慌，程式碼沒有問題，在模擬器或者真機執行才會有，

MYSQL登入函式（第3版本）

已經改進 CREATE DEFINER=`root`@`%` FUNCTION `uc_session_login`( `reqjson` JSON, `srvjson` JSON ) RETURNS json LANGUAGE SQL NOT DETERMINISTIC CONTAI

蔡高廳老師 - 高等數學閱讀筆記 - 14 定積分 -定積分的換元法 - 廣義積分和伽馬函式（65、66）

不定積分有第一，第二換元，定積分只有換元：周期函式的定積分定積分的分部積分法利用歸納法和分部積分法

關於CKEditor4 5 6的使用，自定義toolbar配置，上傳圖片案例（SpringMVC+MyBatis案例），

內向交貨單建立函式（BBP_INB_DELIVERY_CREATE、BAPI_DELIVERYPROCESSING_EXEC） VL31N

1 ， BBP_INB_DELIVERY_CREATE ls_head-deliv_date = sy-datum. ls_head-ship_point = '2000'. ls_item-deliv_item = '000

js載入三級選單（附帶載入日期）

C語言資料型別輸入輸出函式（2018.11.17）

基本資料型別 5個方式瞭解基本型別 1、符號 2、位元組數 3、資料範圍 4、表示方法 5、運算方法記憶體空間分配給變數，不是型別指標型別：指標變臉中只能存放地址空型別：主要用於資料型別的轉換和定義函式型別 void指標是萬用指標，萬用=無用，多數用於型別轉換後使用限定性流程

C語言 if、for、goto、位運算、位段、函式（2018.11.18）

if語句 if(表示式) { 語句1； } else { 語句2； } 在使用if語句判斷條件的時候要注意符號的結合性 eg： if(5 <= x <= 20) if(5 <= x && x <= 20) 語句1與語句2判斷的

python 學習彙總36：遞迴函式（尾遞迴）（ tcy）

遞迴函式（尾遞迴） 2018/11/15 用途：遞迴函式常用於檢索大量資料,替代for迴圈。 1.遞迴深度設定： sys.getrecursionlimit() #返回

【轉】金蝶EAS BOS工作流開發（附帶JAVA指令碼）

目錄(?)[+] 流程配置基本知識及示例重要概念流程變數任務輸入輸出注意事項基本流程的配置示例

python 學習彙總58：class類外部定義函式（初級學習- tcy）

類外部定義函式 2018/11/19 目錄： 1. class定義 2. 內部類 3.外部定義函式 4.高階函式與類的關係 5.物件記憶體管理 6.類作用域 7.使用輸出引數 8.類屬性 9.類特性 10.描述符 11.檢視類屬性 12.繼承 13.型別檢

Hive的視窗函式（附帶上手案例）

視窗函式的概述與總結：

可上手案例實操：

總結：

相關推薦