mysql 索引的原理

阿新 • • 發佈：2020-10-27

一介紹

為何要有索引?

一般的應用系統，讀寫比例在10:1左右，而且插入操作和一般的更新操作很少出現效能問題，在生產環境中，我們遇到最多的，也是最容易出問題的，還是一些複雜的查詢操作，因此對查詢語句的優化顯然是重中之重。說起加速查詢，就不得不提到索引了。

什麼是索引

索引在MySQL中也叫做“鍵”，是儲存引擎用於快速找到記錄的一種資料結構。索引對於良好的效能
非常關鍵，尤其是當表中的資料量越來越大時，索引對於效能的影響愈發重要。
索引優化應該是對查詢效能優化最有效的手段了。索引能夠輕易將查詢效能提高好幾個數量級。
索引相當於字典的音序表，如果要查某個字，如果不使用音序表，則需要從幾百頁中逐頁去查。


30

        10                          40

   5         15               35          66

1    6    11   19          21   39     55    100

你是否對索引存在誤解？

索引是應用程式設計和開發的一個重要方面。若索引太多，應用程式的效能可能會受到影響。而索引太少，對查詢效能又會產生影響，要找到一個平衡點，這對應用程式的效能至關重要。一些開發人員總是在事後才想起新增索引----我一直認為，這源於一種錯誤的開發模式。如果知道資料的使用，從一開始就應該在需要處新增索引。開發人員往往對資料庫的使用停留在應用的層面，比如編寫SQL語句、儲存過程之類，他們甚至可能不知道索引的存在，或認為事後讓相關DBA加上即可。DBA往往不夠了解業務的資料流，而新增索引需要通過監控大量的SQL語句進而從中找到問題，這個步驟所需的時間肯定是遠大於初始新增索引所需的時間，並且可能會遺漏一部分的索引。當然索引也並不是越多越好，我曾經遇到過這樣一個問題：某臺MySQL伺服器iostat顯示磁碟使用率一直處於100%，經過分析後發現是由於開發人員添加了太多的索引，在刪除一些不必要的索引之後，磁碟使用率馬上下降為20%。可見索引的新增也是非常有技術含量的。

考慮到磁碟IO是非常高昂的操作，計算機作業系統做了一些優化，當一次IO時，不光把當前磁碟地址的資料，而是把相鄰的資料也都讀取到記憶體緩衝區內，因為區域性預讀性原理告訴我們，當計算機訪問一個地址的資料的時候，與其相鄰的資料也會很快被訪問到。每一次IO讀取的資料我們稱之為一頁(page)。具體一頁有多大資料跟作業系統有關，一般為4k或8k，也就是我們讀取一頁內的資料時候，實際上才發生了一次IO，這個理論對於索引的資料結構設計非常有幫助。

索引的資料結構

前面講了索引的基本原理，資料庫的複雜性，又講了作業系統的相關知識，目的就是讓大家瞭解，任何一種資料結構都不是憑空產生的，一定會有它的背景和使用場景，我們現在總結一下，我們需要這種資料結構能夠做些什麼，其實很簡單，那就是：每次查詢資料時把磁碟IO次數控制在一個很小的數量級，最好是常數數量級。那麼我們就想到如果一個高度可控的多路搜尋樹是否能滿足需求呢？就這樣，b+樹應運而生（B+樹是通過二叉查詢樹，再由平衡二叉樹，B樹演化而來）

如上圖，是一顆b+樹，關於b+樹的定義可以參見B+樹，這裡只說一些重點，淺藍色的塊我們稱之為一個磁碟塊，可以看到每個磁碟塊包含幾個資料項（深藍色所示）和指標（黃色所示），如磁碟塊1包含資料項17和35，包含指標P1、P2、P3，P1表示小於17的磁碟塊，P2表示在17和35之間的磁碟塊，P3表示大於35的磁碟塊。真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不儲存真實的資料，只儲存指引搜尋方向的資料項，如17、35並不真實存在於資料表中。

b+樹的查詢過程

如圖所示，如果要查詢資料項29，那麼首先會把磁碟塊1由磁碟載入到記憶體，此時發生一次IO，在記憶體中用二分查詢確定29在17和35之間，鎖定磁碟塊1的P2指標，記憶體時間因為非常短（相比磁碟的IO）可以忽略不計，通過磁碟塊1的P2指標的磁碟地址把磁碟塊3由磁碟載入到記憶體，發生第二次IO，29在26和30之間，鎖定磁碟塊3的P2指標，通過指標載入磁碟塊8到記憶體，發生第三次IO，同時記憶體中做二分查詢找到29，結束查詢，總計三次IO。真實的情況是，3層的b+樹可以表示上百萬的資料，如果上百萬的資料查詢只需要三次IO，效能提高將是巨大的，如果沒有索引，每個資料項都要發生一次IO，那麼總共需要百萬次的IO，顯然成本非常非常高。

b+樹性質

1.索引欄位要儘量的小：通過上面的分析，我們知道IO次數取決於b+數的高度h，假設當前資料表的資料為N，每個磁碟塊的資料項的數量是m，則有h=㏒(m+1)N，當資料量N一定的情況下，m越大，h越小；而m = 磁碟塊的大小 / 資料項的大小，磁碟塊的大小也就是一個數據頁的大小，是固定的，如果資料項佔的空間越小，資料項的數量越多，樹的高度越低。這就是為什麼每個資料項，即索引欄位要儘量的小，比如int佔4位元組，要比bigint8位元組少一半。這也是為什麼b+樹要求把真實的資料放到葉子節點而不是內層節點，一旦放到內層節點，磁碟塊的資料項會大幅度下降，導致樹增高。當資料項等於1時將會退化成線性表。
2.索引的最左匹配特性：當b+樹的資料項是複合的資料結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜尋樹的，比如當(張三,20,F)這樣的資料來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最後得到檢索的資料；但當(20,F)這樣的沒有name的資料來的時候，b+樹就不知道下一步該查哪個節點，因為建立搜尋樹的時候name就是第一個比較因子，必須要先根據name來搜尋才能知道下一步去哪裡查詢。比如當(張三,F)這樣的資料來檢索時，b+樹可以用name來指定搜尋方向，但下一個欄位age的缺失，所以只能把名字等於張三的資料都找到，然後再匹配性別是F的資料了，這個是非常重要的性質，即索引的最左匹配特性。