1. 程式人生 > >oracle 分析函式

oracle 分析函式

3)分析函式簡述收集自http://space.itpub.net/7607759/

Oracle開發專題之:分析函式(OVER)

目錄:
===============================================
1.Oracle分析函式簡介
2. Oracle分析函式簡單例項
3.分析函式OVER解析

一、Oracle分析函式簡介:

在日常的生產環境中,我們接觸得比較多的是OLTP系統(即Online Transaction Process),這些系統的特點是具備實時要求,或者至少說對響應的時間多長有一定的要求;其次這些系統的業務邏輯一般比較複雜,可能需要經過多次的運算。比如我們經常接觸到的電子商城。

在這些系統之外,還有一種稱之為OLAP的系統(即Online Aanalyse Process),這些系統一般用於系統決策使用。通常和資料倉庫、資料分析、資料探勘等概念聯絡在一起。這些系統的特點是資料量大,對實時響應的要求不高或者根本不關注這方面的要求,以查詢、統計操作為主。

我們來看看下面的幾個典型例子:
①查詢上一年度各個銷售區域排名前10的員工
②按區域查詢上一年度訂單總額佔區域訂單總額20%以上的客戶
③查詢上一年度銷售最差的部門所在的區域
④查詢上一年度銷售最好和最差的產品

我們看看上面的幾個例子就可以感覺到這幾個查詢和我們日常遇到的查詢有些不同,具體有:

①需要對同樣的資料進行不同級別的聚合操作
②需要在表內將多條資料和同一條資料進行多次的比較
③需要在排序完的結果集上進行額外的過濾操作

分析函式語法:
FUNCTION_NAME(<argument>,<argument>...)
OVER
(<Partition-Clause><Order-by-Clause><Windowing Clause>)

例:
sum(sal) over (partition by deptno order by ename) new_alias
sum就是函式名
(sal)是分析函式的引數,每個函式有0~3個引數,引數可以是表示式,例如:sum(sal+comm)
over 是一個關鍵字,用於標識分析函式,否則查詢分析器不能區別sum()聚集函式和sum()分析函式
partition by deptno 是可選的分割槽子句,如果不存在任何分割槽子句,則全部的結果集可看作一個單一的大區
order by ename 是可選的orderby 子句,有些函式需要它,有些則不需要.依靠已排序資料的那些函式,如:用於訪問結果集中前一行和後一行的LAG和LEAD,必須使用,其它函式,如AVG,則不需要.在使用了任何排序的開窗函式時,該子句是強制性的,它指定了在計算分析函式時一組內的資料是如何排序的.

1)FUNCTION子句
ORACLE提供了26個分析函式,按功能分5類
分析函式分類
等級(ranking)函式:用於尋找前N種查詢
開窗(windowing)函式:用於計算不同的累計,如SUM,COUNT,AVG,MIN,MAX等,作用於資料的一個視窗上
例:
sum(t.sal) over (order by t.deptno,t.ename) running_total,
sum(t.sal) over (partition by t.deptno order by t.ename) department_total
製表(reporting)函式:與開窗函式同名,作用於一個分割槽或一組上的所有列
例:
sum(t.sal) over () running_total2,
sum(t.sal) over (partition by t.deptno ) department_total2
製表函式與開窗函式的關鍵不同之處在於OVER語句上缺少一個ORDER BY子句!


LAG,LEAD函式:這類函式允許在結果集中向前或向後檢索值,為了避免資料的自連線,它們是非常用用的.
VAR_POP,VAR_SAMP,STDEV_POPE及線性的衰減函式:計算任何未排序分割槽的統計值

2)PARTITION子句
按照表達式分割槽(就是分組),如果省略了分割槽子句,則全部的結果集被看作是一個單一的組

3)ORDER BY子句
分析函式中ORDER BY的存在將新增一個預設的開窗子句,這意味著計算中所使用的行的集合是當前分割槽中當前行和前面所有行,沒有ORDERBY時,預設的視窗是全部的分割槽 在Order by 子句後可以新增nulls last,如:order by comm descnulls last   表示排序時忽略comm列為空的行.   

4)WINDOWING子句
用於定義分析函式將在其上操作的行的集合
Windowing子句給出了一個定義變化或固定的資料視窗的方法,分析函式將對這些資料進行操作
預設的視窗是一個固定的視窗,僅僅在一組的第一行開始,一直繼續到當前行,要使用視窗,必須使用ORDER BY子句
根據2個標準可以建立視窗:資料值的範圍(RANGES)或與當前行的行偏移量.

5)Rang視窗
Range 5 preceding:將產生一個滑動視窗,他在組中擁有當前行以前5行的集合
ANGE視窗僅對NUMBERS和DATES起作用,因為不可能從VARCHAR2中增加或減去N個單元
另外的限制是ORDER BY中只能有一列,因而範圍實際上是一維的,不能在N維空間中
例:
avg(t.sal) over(order by t.hiredate asc range 100 preceding) 統計前100天平均工資

6)Row視窗
利用ROW分割槽,就沒有RANGE分割槽那樣的限制了,資料可以是任何型別,且ORDER BY 可以包括很多列

7)Specifying視窗
UNBOUNDED PRECEDING:這個視窗從當前分割槽的每一行開始,並結束於正在處理的當前行
CURRENT ROW:該視窗從當前行開始(並結束)
Numeric Expression PRECEDING:對該視窗從當前行之前的數字表達式(Numeric Expression)的行開始,對RANGE來說,從從行序值小於數字表達式的當前行的值開始.
Numeric Expression FOLLOWING:該視窗在當前行Numeric Expression行之後的行終止(或開始),且從行序值大於當前行Numeric Expression行的範圍開始(或終止)
range between 100 preceding and 100 following:當前行100前,當前後100後

注意:分析函式允許你對一個數據集進排序和篩選,這是SQL從來不能實現的.除了最後的Order by子句之外,分析函式是在查詢中執行的最後的操作集,這樣的話,就不能直接在謂詞中使用分析函式,即不能在上面使用where或having子句!!!

二、Oracle分析函式簡單例項:

下面我們通過一個實際的例子:按區域查詢上一年度訂單總額佔區域訂單總額20%以上的客戶,來看看分析函式的應用。

【1】測試環境:

SQL> desc orders_tmp;
 Name                          Null?    Type
 ----------------------- -------- ----------------
 CUST_NBR                   NOT NULL NUMBER(5)
 REGION_ID                  NOT NULL NUMBER(5)
 SALESPERSON_ID      NOT NULL NUMBER(5)
 YEAR                             NOT NULL NUMBER(4)
 MONTH                        NOT NULL NUMBER(2)
 TOT_ORDERS              NOT NULL NUMBER(7)
 TOT_SALES                NOT NULL NUMBER(11,2)


【2】測試資料:

SQL> select * from orders_tmp;

  CUST_NBR  REGION_ID SALESPERSON_ID       YEAR      MONTH TOT_ORDERS  TOT_SALES
---------- ---------- -------------- ---------- ---------- ---------- ----------
        11          7             11                      2001          7          2      12204
         4          5              4                        2001         10         2      37802
         7          6              7                        2001          2          3       3750
        10          6              8                        2001          1          2      21691
        10          6              7                        2001          2          3      42624
        15          7             12                       2000          5          6         24
        12          7              9                       2000          6          2      50658
         1          5              2                        2000          3          2      44494
         1          5              1                        2000          9          2      74864
         2          5              4                         2000          3          2      35060
         2          5              4                        2000          4          4       6454
         2          5              1                        2000         10          4      35580
         4          5              4                        2000         12          2      39190

13
 rows selected.


【3】測試語句:

SQL> select o.cust_nbr customer,
  2         o.region_id region,
  3         sum(o.tot_sales) cust_sales,
  4         sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales
  5    from orders_tmp o
  6   where o.year = 2001
  7
   group by o.region_id, o.cust_nbr;

  CUSTOMER     REGION CUST_SALES REGION_SALES
---------- ---------- ---------- ------------
         4             5      37802        37802
         7             6       3750        68065
        10            6      64315        68065
        11            7      12204        12204


三、分析函式OVER解析:

請注意上面的綠色高亮部分,group by的意圖很明顯:將資料按區域ID,客戶進行分組,那麼Over這一部分有什麼用呢?假如我們只需要統計每個區域每個客戶的訂單總額,那麼我們只需要group by o.region_id,o.cust_nbr就夠了。但我們還想在每一行顯示該客戶所在區域的訂單總額,這一點和前面的不同:需要在前面分組的基礎上按區域累加。很顯然group by和sum是無法做到這一點的(因為聚集操作的級別不一樣,前者是對一個客戶,後者是對一批客戶)。

這就是over函式的作用了!它的作用是告訴SQL引擎:按區域對資料進行分割槽,然後累積每個區域每個客戶的訂單總額(sum(sum(o.tot_sales)))。

現在我們已經知道2001年度每個客戶及其對應區域的訂單總額,那麼下面就是篩選那些個人訂單總額佔到區域訂單總額20%以上的大客戶了

SQL> select *
  2    from (select o.cust_nbr customer,
  3                 o.region_id region,
  4                 sum(o.tot_sales) cust_sales,
  5                 sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales
  6            from orders_tmp o
  7           where o.year = 2001
  8
           group by o.region_id, o.cust_nbr) all_sales
  9   where all_sales.cust_sales > all_sales.region_sales * 0.2;

  CUSTOMER     REGION CUST_SALES REGION_SALES
---------- ---------- ---------- ------------
         4          5      37802        37802
        10          6      64315        68065
        11          7      12204        12204


SQL> 


現在我們已經知道這些大客戶是誰了!哦,不過這還不夠,如果我們想要知道每個大客戶所佔的訂單比例呢?看看下面的SQL語句,只需要一個簡單的Round函式就搞定了。

SQL> select all_sales.*,
  2         100 * round(cust_sales / region_sales, 2) || '%' Percent
  3
    from (select o.cust_nbr customer,
  4                 o.region_id region,
  5                 sum(o.tot_sales) cust_sales,
  6                 sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales
  7            from orders_tmp o
  8           where o.year = 2001
  9
           group by o.region_id, o.cust_nbr) all_sales
 10   where all_sales.cust_sales > all_sales.region_sales * 0.2;

  CUSTOMER     REGION CUST_SALES REGION_SALES PERCENT
---------- ---------- ---------- ------------ ----------------------------------------
         4            5                 37802        37802   100%
        10          6                 64315        68065     94%
        11          7                 12204        12204   100%

SQL> 


總結:

①Over函式指明在那些欄位上做分析,其內跟Partition by表示對資料進行分組。注意Partition by可以有多個欄位。

②Over函式可以和其它聚集函式、分析函式搭配,起到不同的作用。例如這裡的SUM,還有諸如Rank,Dense_rank等。


Oracle開發專題之:分析函式2(Rank, Dense_rank, row_number)

目錄
===============================================
1.使用rownum為記錄排名
2.使用分析函式來為記錄排名
3.使用分析函式為記錄進行分組排名

一、使用rownum為記錄排名:

在前面一篇《Oracle開發專題之:分析函式》,我們認識了分析函式的基本應用,現在我們再來考慮下面幾個問題:

①對所有客戶按訂單總額進行排名
②按區域和客戶訂單總額進行排名
③找出訂單總額排名前13位的客戶
④找出訂單總額最高、最低的客戶
⑤找出訂單總額排名前25%的客戶


按照前面第一篇文章的思路,我們只能做到對各個分組的資料進行統計,如果需要排名的話那麼只需要簡單地加上rownum不就行了嗎?事實情況是否如此想象般簡單,我們來實踐一下。

【1】測試環境:

SQL> desc user_order;
 Name                                      Null?    Type
 ----------------------------------------- -------- ----------------------------
 REGION_ID                                          NUMBER(2)
 CUSTOMER_ID                                  NUMBER(2)
 CUSTOMER_SALES                          NUMBER


【2】測試資料:

SQL> select * from user_order order by customer_sales;

 REGION_ID CUSTOMER_ID CUSTOMER_SALES
---------- ----------- --------------
         5           1             151162
        10          29            903383
         6           7             971585
        10          28           986964
         9          21           1020541
         9          22          1036146
         8          16          1068467
         6           8           1141638
         5           3           1161286
         5           5           1169926
         8          19          1174421
         7          12          1182275
         7          11          1190421
         6          10          1196748
         6           9           1208959
        10          30          1216858
         5            2               1224992
           9            24             1224992
           9            23             1224992
          8          18          1253840
         7          15          1255591
         7          13          1310434
        10          27         1322747
         8          20          1413722
         6           6           1788836
        10          26         1808949
         5           4           1878275
         7          14          1929774
         8          17          1944281
         9          25          2232703

30
 rows selected.


注意這裡有3條記錄的訂單總額是一樣的。假如我們現在需要篩選排名前12位的客戶,如果使用rownum會有什麼樣的後果呢?

SQL> select rownum, t.*
  2    from (select * 
  3            from user_order
  4           order by customer_sales desc) t
  5   where rownum <= 12
  6
   order by customer_sales desc;

    ROWNUM  REGION_ID CUSTOMER_ID CUSTOMER_SALES
---------- ---------- ----------- --------------
         1          9                25        2232703
         2          8                17        1944281
         3          7                 14        1929774
         4          5                   4        1878275
         5         10                26        1808949
         6          6                  6        1788836
         7          8                20        1413722
         8         10               27        1322747
         9          7               13        1310434
        10          7              15        1255591
        11          8              18        1253840
          12            5                    2          1224992

12
 rows selected.


很明顯假如只是簡單地按rownum進行排序的話,我們漏掉了另外兩條記錄(參考上面的結果)。

二、使用分析函式來為記錄排名:

針對上面的情況,Oracle從8i開始就提供了3個分析函式:rand,dense_rank,row_number來解決諸如此類的問題,下面我們來看看這3個分析函式的作用以及彼此之間的區別:

Rank,Dense_rank,Row_number函式為每條記錄產生一個從1開始至N的自然數,N的值可能小於等於記錄的總數。這3個函式的唯一區別在於當碰到相同資料時的排名策略。

①ROW_NUMBER:

Row_number函式返回一個唯一的值,當碰到相同資料時,排名按照記錄集中記錄的順序依次遞增。 

②DENSE_RANK:
Dense_rank函式返回一個唯一的值,除非當碰到相同資料時,此時所有相同資料的排名都是一樣的。 

③RANK:
Rank函式返回一個唯一的值,除非遇到相同的資料時,此時所有相同資料的排名是一樣的,同時會在最後一條相同記錄和下一條不同記錄的排名之間空出排名。

這樣的介紹有點難懂,我們還是通過例項來說明吧,下面的例子演示了3個不同函式在遇到相同資料時不同排名策略:

SQL> select region_id, customer_id, sum(customer_sales) total,
  2         rank() over(order by sum(customer_sales) desc) rank,
  3         dense_rank() over(order by sum(customer_sales) desc) dense_rank,
  4         row_number() over(order by sum(customer_sales) desc) row_number
  5    from user_order
  6   group by region_id, customer_id;

 REGION_ID CUSTOMER_ID      TOTAL       RANK DENSE_RANK ROW_NUMBER
---------- ----------- ---------- ---------- ---------- ----------
          
         8          18                1253840         11         11         11
         5           2                 1224992         12         12         12
         9          23                1224992         12         12         13
         9          24                1224992         12         12         14
        10          30               1216858         15           13           15
  

30
 rows selected.


請注意上面的綠色高亮部分,這裡生動的演示了3種不同的排名策略:

①對於第一條相同的記錄,3種函式的排名都是一樣的:12

②當出現第二條相同的記錄時,Rank和Dense_rank依然給出同樣的排名12;而row_number則順延遞增為13,依次類推至第三條相同的記錄

③當排名進行到下一條不同的記錄時,可以看到Rank函式在12和15之間空出了13,14的排名,因為這2個排名實際上已經被第二、三條相同的記錄佔了。而Dense_rank則順序遞增。row_number函式也是順序遞增

比較上面3種不同的策略,我們在選擇的時候就要根據客戶的需求來定奪了:

①假如客戶就只需要指定數目的記錄,那麼採用row_number是最簡單的,但有漏掉的記錄的危險

②假如客戶需要所有達到排名水平的記錄,那麼採用rank或dense_rank是不錯的選擇。至於選擇哪一種則看客戶的需要,選擇dense_rank或得到最大的記錄

三、使用分析函式為記錄進行分組排名:

上面的排名是按訂單總額來進行排列的,現在跟進一步:假如是為各個地區的訂單總額進行排名呢?這意味著又多了一次分組操作:對記錄按地區分組然後進行排名。幸虧Oracle也提供了這樣的支援,我們所要做的僅僅是在over函式中order by的前面增加一個分組子句:partition by region_id。

SQL> select region_id, customer_id, 
               sum(customer_sales) total,
  2         rank() over(partition by region_id
                        order by sum(customer_sales) desc) rank,
  3         dense_rank() over(partition by region_id
                        order by sum(customer_sales) desc) dense_rank,
  4         row_number() over(partition by region_id
                        order by sum(customer_sales) desc) row_number

  5    from user_order
  6   group by region_id, customer_id;

 REGION_ID CUSTOMER_ID      TOTAL       RANK DENSE_RANK ROW_NUMBER
---------- ----------- ---------- ---------- ---------- ----------
         5           4                1878275          1          1          1
         5           2               1224992          2          2          2
         5           5               1169926          3          3          3
         6           6               1788836          1          1          1
         6           9               1208959          2          2          2
         6          10              1196748          3          3          3       
 

30
 rows selected.


現在我們看到的排名將是基於各個地區的,而非所有區域的了!Partition by 子句在排列函式中的作用是將一個結果集劃分成幾個部分,這樣排列函式就能夠應用於這各個子集。

前面我們提到的5個問題已經解決了2個了(第1,2),剩下的3個問題(Top/Bottom N,First/Last, NTile)會在下一篇講解。


Oracle開發專題之:分析函式3(Top/Bottom N、First/Last、NTile)

SQL> select region_id, customer_id,
  2         sum(customer_sales) cust_sales,
  3         sum(sum(customer_sales)) over(partition by region_id) ran_total,
  4         rank() over(partition by region_id
  5                  order by sum(customer_sales) desc) rank
  6    from user_order
  7   group by region_id, customer_id;

 REGION_ID CUSTOMER_ID CUST_SALES  RAN_TOTAL       RANK
---------- ----------- ---------- ---------- ---------- 
        10          31                   6238901          1
        10          26    1808949    6238901          2
        10          27    1322747    6238901          3
        10          30    1216858    6238901          4
        10          28     986964    6238901          5
        10          29     903383    6238901          6

我們看到這裡有一條記錄的CUST_TOTAL欄位值為NULL,但居然排在第一名了!顯然這不符合情理。所以我們重新調整完善一下我們的排名策略,看看下面的語句:

SQL> select region_id, customer_id,
  2         sum(customer_sales) cust_total,
  3         sum(sum(customer_sales)) over(partition by region_id) reg_total,
  4         rank() over(partition by region_id 
                        order by sum(customer_sales) desc NULLS LAST) rank
  5        from user_order
  6       group by region_id, customer_id;

 REGION_ID CUSTOMER_ID CUST_TOTAL  REG_TOTAL       RANK
---------- ----------- ---------- ---------- ----------
        10          26    1808949    6238901          1
        10          27    1322747    6238901          2
        10          30    1216858    6238901          3
        10          28     986964    6238901          4
        10          29     903383    6238901          5
        10          31     6238901                          6

綠色高亮處,NULLS LAST/FIRST告訴Oracle讓空值排名最後後第一。

注意是NULLS,不是NULL。

二、Top/Bottom N查詢:

在日常的工作生產中,我們經常碰到這樣的查詢:找出排名前5位的訂單客戶、找出排名前10位的銷售人員等等。現在這個對我們來說已經是很簡單的問題了。下面我們用一個實際的例子來演示:

【1】找出所有訂單總額排名前3的大客戶:

SQL> select *
SQL>   from (select region_id,
SQL>                customer_id,
SQL>                sum(customer_sales) cust_total,
SQL>                rank() over(order by sum(customer_sales) desc NULLS LAST) rank
SQL>           from user_order
SQL>          group by region_id, customer_id)
SQL>  where rank <= 3;

 REGION_ID CUSTOMER_ID CUST_TOTAL       RANK
---------- ----------- ---------- ----------
         9          25    2232703          1
         8          17    1944281          2
         7          14    1929774          3


SQL> 


【2】找出每個區域訂單總額排名前3的大客戶:

SQL> select *
  2    from (select region_id,
  3                 customer_id,
  4                 sum(customer_sales) cust_total,
  5                 sum(sum(customer_sales)) over(partition by region_id) reg_total,
  6                 rank() over(partition by region_id
                               order by sum(customer_sales) desc NULLS LAST) rank
  7            from user_order
  8           group by region_id, customer_id)
  9   where rank <= 3;

 REGION_ID CUSTOMER_ID CUST_TOTAL  REG_TOTAL       RANK
---------- ----------- ---------- ---------- ----------
         5           4    1878275    5585641          1
         5           2    1224992    5585641          2
         5           5    1169926    5585641          3
         6           6    1788836    6307766          1
         6           9    1208959    6307766          2
         6          10    1196748    6307766          3
         7          14    1929774    6868495          1
         7          13    1310434    6868495          2
         7          15    1255591    6868495          3
         8          17    1944281    6854731          1
         8          20    1413722    6854731          2
         8          18    1253840    6854731          3
         9          25    2232703    6739374          1
         9          23    1224992    6739374          2
         9          24    1224992    6739374          2
        10          26    1808949    6238901          1
        10          27    1322747    6238901          2
        10          30    1216858    6238901          3

18
 rows selected.


三、First/Last排名查詢:

想象一下下面的情形:找出訂單總額最多、最少的客戶。按照前面我們學到的知識,這個至少需要2個查詢。第一個查詢按照訂單總額降序排列以期拿到第一名,第二個查詢按照訂單總額升序排列以期拿到最後一名。是不是很煩?因為Rank函式只告訴我們排名的結果,卻無法自動替我們從中篩選結果。

幸好Oracle為我們在排列函式之外提供了兩個額外的函式:first、last函式,專門用來解決這種問題。還是用例項說話:

SQL> select min(customer_id)
  2         keep (dense_rank first order by sum(customer_sales) desc) first,
  3         min(customer_id)
  4         keep (dense_rank last order by sum(customer_sales) desc) last
  5    from user_order
  6   group by customer_id;

     FIRST       LAST
---------- ----------
        31          1


這裡有幾個看起來比較疑惑的地方:

①為什麼這裡要用min函式
②Keep這個東西是幹什麼的
③fist/last是幹什麼的
④dense_rank和dense_rank()有什麼不同,能換成rank嗎?

首先解答一下第一個問題:min函式的作用是用於當存在多個First/Last情況下保證返回唯一的記錄。假如我們去掉會有什麼樣的後果呢?

SQL> select keep (dense_rank first order by sum(customer_sales) desc) first, 
  2            keep (dense_rank last order by sum(customer_sales) desc) last
  3    from user_order
  4   group by customer_id;
select keep (dense_rank first order by sum(customer_sales) desc) first,
                        *
ERROR at line 1:
ORA-00907: missing right parenthesis


接下來看看第2個問題:keep是幹什麼用的?從上面的結果我們已經知道Oracle對排名的結果只“保留”2條資料,這就是keep的作用。告訴Oracle只保留符合keep條件的記錄。

那麼什麼才是符合條件的記錄呢?這就是第3個問題了。dense_rank是告訴Oracle排列的策略,first/last則告訴最終篩選的條件。

第4個問題:如果我們把dense_rank換成rank呢?

SQL> select min(region_id)
  2          keep(rank first order by sum(customer_sales) desc) first,
  3         min(region_id)
  4          keep(rank last order by sum(customer_sales) desc) last
  5    from user_order
  6   group by region_id;
select min(region_id)
*
ERROR at line 1:
ORA-02000: missing DENSE_RANK


四、按層次查詢:

現在我們已經見識瞭如何通過Oracle的分析函式來獲取Top/Bottom N,第一個,最後一個記錄。有時我們會收到類似下面這樣的需求:找出訂單總額排名前1/5的客戶。

很熟悉是不?我們馬上會想到第二點中提到的方法,可是rank函式只為我們做好了排名,並不知道每個排名在總排名中的相對位置,這時候就引入了另外一個分析函式NTile,下面我們就以上面的需求為例來講解一下:

SQL> select region_id,
  2         customer_id,
  3         ntile(5) over(order by sum(customer_sales) desc) til
  4    from user_order
  5   group by region_id, customer_id;

 REGION_ID CUSTOMER_ID       TILE
---------- ----------- ----------
        10          31          1
         9          25          1
        10          26          1
         6           6           1         
         8          18          2
         5           2           2
         9          23          3
         6           9           3
         7          11          3
         5           3           4
         6           8           4
         8          16          4
         6           7           5
        10          29          5
         5           1           5


Ntil函式為各個記錄在記錄集中的排名計算比例,我們看到所有的記錄被分成5個等級,那麼假如我們只需要前1/5的記錄則只需要擷取TILE的值為1的記錄就可以了。假如我們需要排名前25%的記錄(也就是1/4)那麼我們只需要設定ntile(4)就可以了。


Oracle開發專題之:視窗函式

到目前為止,我們所學習的分析函式在計算/統計一段時間內的資料時特別有用,但是假如計算/統計需要隨著遍歷記錄集的每一條記錄而進行呢?舉些例子來說:

①列出每月的訂單總額以及全年的訂單總額
②列出每月的訂單總額以及截至到當前月的訂單總額
③列出上個月、當月、下一月的訂單總額以及全年的訂單總額
④列出每天的營業額及一週來的總營業額
⑤列出每天的營業額及一週來每天的平均營業額

仔細回顧一下前面我們介紹到的分析函式,我們會發現這些需求和前面有一些不同:前面我們介紹的分析函式用於計算/統計一個明確的階段/記錄集,而這裡有部分需求例如2,需要隨著遍歷記錄集的每一條記錄的同時進行統計。

也即是說:統計不止發生一次,而是發生多次。統計不至發生在記錄集形成後,而是發生在記錄集形成的過程中。

這就是我們這次要介紹的視窗函式的應用了。它適用於以下幾個場合:

①通過指定一批記錄:例如從當前記錄開始直至某個部分的最後一條記錄結束
②通過指定一個時間間隔:例如在交易日之前的前30天
③通過指定一個範圍值:例如所有佔到當前交易量總額5%的記錄

二、視窗函式示例-全統計:

下面我們以需求:列出每月的訂單總額以及全年的訂單總額為例,來看看視窗函式的應用。

【1】測試環境:

SQL> desc orders;
 名稱                    是否為空? 型別
 ----------------------- -------- ----------------
 MONTH                            NUMBER(2)
 TOT_SALES                    NUMBER

SQL> 


【2】測試資料:

SQL> select * from orders;

     MONTH  TOT_SALES
---------- ----------
         1     610697
         2     428676
         3     637031
         4     541146
         5     592935
         6     501485
         7     606914
         8     460520
         9     392898
        10     510117
        11     532889
        12     492458


已選擇12行。


【3】測試語句:

回憶一下前面《Oracle開發專題之:分析函式(OVER)》一文中,我們使用了sum(sum(tot_sales)) over (partition by region_id) 來統計每個分割槽的訂單總額。現在我們要統計的不單是每個分割槽,而是所有分割槽,partition by region_id在這裡不起作用了。

Oracle為這種情況提供了一個子句:rows between ...preceding and ... following。從字面上猜測它的意思是:在XXX之前和XXX之後的所有記錄,實際情況如何讓我們通過示例來驗證:

SQL> select month,
  2         sum(tot_sales) month_sales,
  3         sum(sum(tot_sales)) over (order by month
  4            rows between unbounded preceding and unbounded following) total_sales
  5    from orders
  6   group by month;

     MONTH MONTH_SALES TOTAL_SALES
---------- ----------- -----------
         1      610697     6307766
         2      428676     6307766
         3      637031     6307766
         4      541146     6307766
         5      592935     6307766
         6      501485     6307766
         7      606914     6307766
         8      460520     6307766
         9      392898     6307766
        10      510117     6307766
        11      532889     6307766
        12      492458     6307766


已選擇12行。


綠色高亮處的程式碼在這裡發揮了關鍵作用,它告訴oracle統計從第一條記錄開始至最後一條記錄的每月銷售額。這個統計在記錄集形成的過程中執行了12次,這時相當費時的!但至少我們解決了問題。

unbounded preceding and unbouned following的意思針對當前所有記錄的前一條、後一條記錄,也就是表中的所有記錄。那麼假如我們直接指定從第一條記錄開始直至末尾呢?看看下面的結果:

SQL> select month,
  2         sum(tot_sales) month_sales,
  3         sum(sum(tot_sales)) over (order by month
  4            rows between 1 preceding and unbounded following) all_sales
  5    from orders
  6   group by month;

     MONTH MONTH_SALES  ALL_SALES
---------- ----------- ----------
         1      610697    6307766
         2      428676    6307766
         3      637031    5697069
         4      541146    5268393
         5      592935    4631362
         6      501485    4090216
         7      606914    3497281
         8      460520    2995796
         9      392898    2388882
        10      510117    1928362
        11      532889    1535464
        12      492458    1025347


已選擇12行。


很明顯這個語句錯了。實際1在這裡不是從第1條記錄開始的意思,而是指當前記錄的前一條記錄。preceding前面的修飾符是告訴視窗函式執行時參考的記錄數,如同unbounded就是告訴oracle不管當前記錄是第幾條,只要前面有多少條記錄,都列入統計的範圍。

三、視窗函式進階-滾動統計(累積/均值):


考慮前面提到的第2個需求:列出每月的訂單總額以及截至到當前月的訂單總額。也就是說2月份的記錄要顯示當月的訂單總額和1,2月份訂單總額的和。3月份要顯示當月的訂單總額和1,2,3月份訂單總額的和,依此類推。

很明顯這個需求需要在統計第N月的訂單總額時,還要再統計這N個月來的訂單總額之和。想想上面的語句,假如我們能夠把and unboundedfollowing換成代表當前月份的邏輯多好啊!很幸運的是Oracle考慮到了我們這個需求,為此我們只需要將語句稍微改成: curreent row就可以了。

SQL> select month,
  2         sum(tot_sales) month_sales,
  3         sum(sum(tot_sales)) over(order by month
  4           rows between unbounded preceding and current row) current_total_sales
  5    from orders
  6   group by month;

     MONTH MONTH_SALES CURRENT_TOTAL_SALES
---------- ----------- -------------------
         1      610697              610697
         2      428676             1039373
         3      637031             1676404
         4      541146             2217550
         5      592935             2810485
         6      501485             3311970
         7      606914             3918884
         8      460520             4379404
         9      392898             4772302
        10      510117             5282419
        11      532889             5815308
        12      492458             6307766


已選擇12行。


現在我們能得到滾動的銷售總額了!下面這個統計結果看起來更加完美,它展現了所有我們需要的資料:

SQL> select month,
  2         sum(tot_sales) month_sales,
  3         sum(sum(tot_sales)) over(order by month
  4         rows between unbounded preceding and current row) current_total_sales,
  5         sum(sum(tot_sales)) over(order by month
  6         rows between unbounded preceding and unbounded following) total_sales
  7    from orders
  8   group by month;

     MONTH MONTH_SALES CURRENT_TOTAL_SALES TOTAL_SALES
---------- ----------- ------------------- -----------
         1      610697              610697     6307766
         2      428676             1039373     6307766
         3      637031             1676404     6307766
         4      541146             2217550     6307766
         5      592935             2810485     6307766
         6      501485             3311970     6307766
         7      606914             3918884     6307766
         8      460520             4379404     6307766
         9      392898             4772302     6307766
        10      510117             5282419     6307766
        11      532889             5815308     6307766
        12      492458             6307766     6307766


已選擇12行。


在一些銷售報表中我們會時常看到求平均值的需求,有時可能是針對全年的資料求平均值,有時會是針對截至到當前的所有資料求平均值。很簡單,只需要將:
sum(sum(tot_sales))換成avg(sum(tot_sales))即可。

四、視窗函式進階-根據時間範圍統計:


前面我們說過,視窗函式不單適用於指定記錄集進行統計,而且也能適用於指定範圍進行統計的情況,例如下面這個SQL語句就統計了當天銷售額和五天內的評價銷售額:

 select trunc(order_dt) day,
             sum(sale_price) daily_sales,
             avg(sum(sale_price)) over (order by trunc(order_dt)
                      range between interval '2' day preceding 
                                     and interval '2' day following) five_day_avg
   from cust_order
 where sale_price is not null 
     and order_dt between to_date('01-jul-2001','dd-mon-yyyy')
     and to_date('31-jul-2001','dd-mon-yyyy')

為了對指定範圍進行統計,Oracle使用關鍵字range、interval來指定一個範圍。上面的例子告訴Oracle查詢當前日期的前2天,後2天範圍內的記錄,並統計其銷售平均值。

五、視窗函式進階-first_value/last_value:

Oracle提供了2個額外的函式:first_value、last_value,用於在視窗記錄集中查詢第一條記錄和最後一條記錄。假設我們的報表需要顯示當前月、上一個月、後一個月的銷售情況,以及每3個月的銷售平均值,這兩個函式就可以派上用場了。

select month,
             first_value(sum(tot_sales)) over (order by month 
                                    rows between 1 preceding and 1 following) prev_month,
 
             sum(tot_sales) monthly_sales,
 
             last_value(sum(tot_sales)) over (order by month 
                                  rows between 1 preceding and 1 following) next_month,
 
             avg(sum(tot_sales)) over (order by month 
                                 rows between 1 preceding and 1 following) rolling_avg
    from orders
 where year = 2001 
      and region_id = 6
  group by month
 order by month;

首先我們來看:rows between 1 preceding and 1 following告訴Oracle在當前記錄的前一條、後一條範圍內查詢並統計,而first_value和last_value在這3條記錄中至分別找出第一條、第三條記錄,這樣我們就輕鬆地得到相鄰三個月的銷售記錄及平均值了!

六、視窗函式進階-比較相鄰記錄:

通過第五部分的學習,我們知道了如何利用視窗函式來顯示相鄰的記錄,現在假如我們想每次顯示當月的銷售額和上個月的銷售額,應該怎麼做呢?

從第五部分的介紹我們可以知道,利用first_value(sum(tot_sales) over (order by month rows between 1 precedingand 0 following))就可以做到了,其實Oracle還有一個更簡單的方式讓我們來比較2條記錄,它就是lag函式。

leg函式類似於preceding和following子句,它能夠通過和當前記錄的相對位置而被應用,在比較同一個相鄰的記錄集內兩條相鄰記錄的時候特別有用。

select  month,            
          sum(tot_sales) monthly_sales,
          lag(sum(tot_sales), 1) over (order by month) prev_month_sales
   from orders
 where year = 2001
      and region_id = 6
  group by month
 order by month;

lag(sum(tot_sales),1)中的1表示以1月為基準。


Oracle開發專題之:報表函式

sum(sum(tot_sales)) over (order by month rows between unbounded preceding and unbounded following)


來統計全年的訂單總額,這個函式會在記錄集形成的過程中,每檢索一條記錄就執行一次,它總共執行了12次。這是非常費時的。實際上我們還有更簡便的方法:

SQL> select month,
  2         sum(tot_sales) month_sales,
  3         sum(sum(tot_sales)) over(order by month
  4         rows between unbounded preceding and unbounded following) win_sales,
  5         sum(sum(tot_sales)) over() rpt_sales
  6    from orders
  7   group by month;

     MONTH MONTH_SALES WINDOW_SALES REPORT_SALES
---------- ----------- ------------ ------------
         1      610697      6307766      6307766
         2      428676      6307766      6307766
         3      637031      6307766      6307766
         4      541146      6307766      6307766
         5      592935      6307766      6307766
         6      501485      6307766      6307766
         7      606914      6307766      6307766
         8      460520      6307766      6307766
         9      392898      6307766      6307766
        10      510117      6307766      6307766
        11      532889      6307766      6307766
        12      492458      6307766      6307766


已選擇12行。


over函式的空括號表示該記錄集的所有記錄都應該被列入統計的範圍,如果使用了partition by則先分割槽,再依次統計各個分割槽。

二、RATIO_TO_REPORT函式:

報表函式特(視窗函式)特別適合於報表中需要同時顯示詳細資料和統計資料的情況。例如在銷售報告中經常會出現這樣的需求:列出上一年度每個月的銷售總額、年底銷售額以及每個月的銷售額佔全年總銷售額的比例:

方法①:

select all_sales.*,
           100 * round(cust_sales / region_sales, 2) || '%' Percent
 from (select o.cust_nbr customer,
                        o.region_id region,
                       sum(o.tot_sales) cust_sales,
                       sum(sum(o.tot_sales)) over(partition by o.region_id) region_sales
               from orders_tmp o
            where o.year = 2001
             group by o.region_id, o.cust_nbr) all_sales
 where all_sales.cust_sales > all_sales.region_sales * 0.2;


這是一種笨方法也是最易懂的方法。

方法②:

select region_id, salesperson_id, 
           sum(tot_sales) sp_sales,
           round(sum(tot_sales) / sum(sum(tot_sales)) 
                     over (partition by region_id), 2) percent_of_region
  from orders
where year = 2001
 group by region_id, salesperson_id
 order by region_id, salesperson_id;


方法③

select region_id, salesperson_id, 
            sum(tot_sales) sp_sales,
            round(ratio_to_report(sum(tot_sales)) 
                          over (partition by region_id), 2) sp_ratio
   from orders
where year = 2001
group by region_id, salesperson_id
order by region_id, salesperson_id;


Oracle提供的Ratio_to_report函式允許我們計算每條記錄在其對應記錄集或其子集中所佔的比例。

Oracle開發專題之:分析函式總結

這一篇是對前面所有關於分析函式的文章的總結:

一、統計方面:

Sum() Over ([Partition by ] [Order by ])

Sum() Over ([Partition by ] [Order by ]  
     Rows Between  Preceding And  Following)
       
Sum() Over ([Partition by ] [Order by ]
     Rows Between  Preceding And Current Row)

Sum() Over ([Partition by ] [Order by ]
     Range Between Interval '' 'Day' Preceding
                    And Interval '' 'Day' Following )

Rank() Over ([Partition by ] [Order by ] [Nulls First/Last])

  Dense_rank() Over ([Patition by ] [Order by ] [Nulls First/Last])
   
Row_number() Over ([Partitionby ] [Order by ] [Nulls First/Last])
   
Ntile() Over ([Partition by ] [Order by ])

Min()/Max() Keep (Dense_rank First/Last [Partition by ] [Order by ])