1. 程式人生 > >oracle複合索引介紹(多欄位索引)

oracle複合索引介紹(多欄位索引)

 首先,在大多數情況下,複合索引比單欄位索引好.以稅務系統的SB_ZSXX(申報類_徵收資訊表)為例,該表為稅務系統最大的交易表.如果分別按納稅人識別號,稅務機關程式碼,月份3個欄位查詢,每個欄位在該表中的可選性或約束性都不強,如一個納稅人識別號有很多納稅記錄,一個稅務機關程式碼和同一月份記錄就更多了,所以3個欄位合起來,"某個納稅人識別號+某個稅務機關程式碼+某月"的記錄就少多了.因此複合索引比單欄位索引的效率高多了.很多系統就是靠新建一些合適的複合索引,使效率大幅度提高.

      但是,複合索引比單欄位索引的內容原理複雜,複合索引有兩個重要原則需要把握: 字首性和可選性.如果糊里糊塗的濫用複合索引,效果適得其反.

以例子來說明,例子如下:

      假設在員工表(emp)的(ename,job,mgr)3個欄位上建了一個索引,例如索引名叫idx_1.3個欄位分別為員工姓名,工作和所屬經理號.然後,寫如下一個查詢語句,並不斷進行查詢條件和次序的排列組合,例如:

Sql程式碼  
  1. select * from emp where ename = 'a' and job = 'b' and mgr = 3 ;  
  2. select * from emp where job = 'b' and ename = 'a' and mgr = 3 ;  
  3. select * from emp where mgr = 3 and
     ename = 'a' and job = 'b' ;  
  4. select * from emp where mgr = 3 and job = 'b' and ename = 'a' ;  
  5. select * from emp where job = 'b' and mgr = 3 and ename = 'a' ;  
  6. .....  

回答問題:在各種條件組合情況下,剛才建的索引(idx_1) 是用還是不用?也就是說對emp表的訪問是全表掃描還是按索引(idx_1)訪問?

答案是 :  上述語句中只要有ename='a'條件,就能用上索引(ind_1),而不是全表掃描(這就是複合索引的字首性).

複合索引的原理和設計建議

1.複合索引的第一個建議: 字首性(Prefixing)

     先從例子說起.假設省,市,縣分別用3個欄位儲存資料,並建立了一個複合索引.請記住: oracle索引,包括複合索引都是排序的.例如該複合索引在資料庫索引樹上是這樣排序的,即先按省排序,再按市排序,最後按縣排序:

省  市  縣
北京  北京  東城
北京  北京  西城
北京  北京  海淀
... ...
黑龍江  哈爾濱  道里區
黑龍江  哈爾濱  道外區
黑龍江  哈爾濱  香坊區
... ...
黑龍江  齊齊哈爾 龍沙區
黑龍江  齊齊哈爾 鐵鋒區
黑龍江  齊齊哈爾 富拉爾基區
... ...
湖南  長沙  芙蓉區
湖南  長沙  嶽路區
湖南  長沙  開福區
... ...

oracle不是智慧的,它只會按圖索驥,該索引結構是先按省排序的,所以只要給出省名,就能使用索引.如果沒有省名,oracle就成了無頭蒼蠅,亂找一氣,變成了全表掃描了.例如,如果你只給一個縣條件,如"開福區",oracle肯定不會使用該索引了.

2.關於skip scan index

有時候複合索引第一個欄位沒有在語句中出現,oralce也會使用該索引.對,這叫oralce的skip scan index功能,oracle 9i才提供的.

skip scan index功能適合於什麼情況呢?如果oracle發現第一個欄位值很少的情況下,例如假設emp表有gender(性別)欄位,並且建立了(gender,ename,job,mgr)複合索引.因為性別只有男和女,所以為了提高索引的利用率,oracle可將這個索引拆成('男',ename,job,mgr),('女',ename,job,mgr)兩個複合索引.這樣即便沒有gender條件,oracle也會分別到男索引樹和女索引樹進行搜尋.

但是,(gender,ename,job,mgr)索引本身設計是不合理的,它違背了複合索引的第二個原理,可選性(Selectivity),見下面描述.

3.複合索引的第二個原理:可選性(Selectivity)

您可能會問:複合索引中如何排序欄位順序?這時就要用到複合索引的第二個原理:可選性(Selectivity)規則.oracle建議按欄位可選性高低進行排序,即欄位值多的排在前面.例如,(ename,job,mgr,gender),(縣,市,省).這是因為,欄位值多,可選性越強,定位的記錄越少,查詢效率越高.例如,全國可能只有一個"開福區",而湖南省的記錄則太多了.

4.複合索引設計建議

(1).分析SQL語句中的約束條件欄位.

(2).如果約束條件欄位比較固定,則優先考慮建立針對多欄位的普通B*樹複合索引.如果同時涉及到月份,納稅人識別號,稅務機關程式碼3個欄位的條件,則可以考慮建立一個複合索引.

(3).如果單欄位是主鍵或唯一欄位,或者可選性非常高的欄位,儘管約束條件比較固定,也不一定要建成複合索引,可建成單欄位索引,降低複合索引開銷.

(4).在複合索引設計中,需首先考慮複合索引的第一個設計原理:複合索引的字首性.即在SQL語句中,只有將複合索引的第一個欄位作為約束條件,該複合索引才會啟用.

(5).在複合索引設計中,其實應考慮複合索引的可選性.即按可選性高低,進行復合索引欄位的排序.例如上述索引的欄位排序順序為:納稅人識別號,稅務機關程式碼,月份.

(6).如果條件涉及的欄位不固定,組合比較靈活,則分別為月份,稅務機關程式碼和納稅人識別號3個欄位建立索引.

(7).如果是多表連線SQL語句,注意是否可以在被驅動表(drived table)的連線欄位與該表的其他約束條件欄位上建立複合索引.

(8).通過多種SQL分析工具,分析執行計劃以量化形式評估效果.