資料庫索引底層_B+樹詳解

阿新 • • 發佈：2018-12-29

索引：它的底層結構是B+樹。這個大家都知道，但是為什麼用B+樹當他的底層資料結構呢？為什麼不是B樹呢？原因是：B+樹最大的好處就是方便掃庫，B樹必須用中序遍歷的方法按序掃庫，而B+樹直接從葉子節點挨個掃個遍(B+樹葉子節點是大於兩個的，所有的關鍵字都在葉子節點出現，非葉子節點就相當於葉子節點的索引)，B+樹支援範圍查詢非常方便，而B樹不支援。

上面只是理論上的原因，給你們看一張圖你們就明白為什麼用B+樹作為索引的底層結構了！

這就是一棵B+樹，用索引的目的是為讓查詢更快，查詢速度更快有兩個因素決定：查詢速度+IO效能開銷，說白了就是IO次數越少越好，因為IO是對磁碟的一種操作，磁碟讀取時比較慢的（這也是為什麼現在有很多redis快取出現，快取儲存在記憶體中，記憶體中資料的讀取遠快於磁碟讀取）。上面這張圖，是我們在資料庫中建立索引形成的B+樹。那麼，我們開始查詢的過程，這裡只說一些重點，淺藍色的塊我們稱之為一個磁碟塊，可以看到每個磁碟塊包含幾個資料項（深藍色所示）和指標（黃色所示），如磁碟塊1包含資料項17和35，包含指標P1、P2、P3，P1表示小於17的磁碟塊，P2表示在17和35之間的磁碟塊，P3表示大於35的磁碟塊。真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不儲存真實的資料，只儲存指引搜尋方向的資料項，如17、35並不真實存在於資料表中。

B+樹的查詢過程：如圖所示，如果要查詢資料項29，那麼首先會把磁碟塊1由磁碟載入到記憶體，此時發生一次IO，在記憶體中用二分查詢確定29在17和35之間，鎖定磁碟塊1的P2指標，記憶體時間因為非常短（相比磁碟的IO）可以忽略不計，通過磁碟塊1的P2指標的磁碟地址把磁碟塊3由磁碟載入到記憶體，發生第二次IO，29在26和30之間，鎖定磁碟塊3的P2指標，通過指標載入磁碟塊8到記憶體，發生第三次IO，同時記憶體中做二分查詢找到29，結束查詢，總計三次IO。真實的情況是，3層的b+樹可以表示上百萬的資料，如果上百萬的資料查詢只需要三次IO，效能提高將是巨大的，如果沒有索引，每個資料項都要發生一次IO，那麼總共需要百萬次的IO，顯然成本非常非常高。

資料庫的聯合索引：聯合索引就是對錶中幾個列建立的索引，當b+樹的資料項是複合的資料結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜尋樹的，比如當(張三,20,F)這樣的資料來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最後得到檢索的資料；但當(20,F)這樣的沒有name的資料來的時候，b+樹就不知道下一步該查哪個節點，因為建立搜尋樹的時候name就是第一個比較因子，必須要先根據name來搜尋才能知道下一步去哪裡查詢。比如當(張三,F)這樣的資料來檢索時，b+樹可以用name來指定搜尋方向，但下一個欄位age的缺失，所以只能把名字等於張三的資料都找到，然後再匹配性別是F的資料了，這個是非常重要的性質，即索引的最左匹配特性。

索引的幾大使用原則
1.最左字首匹配原則，非常重要的原則，mysql會一直向右匹配直到遇到範圍查詢(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引則都可以用到，a,b,d的順序可以任意調整。

2.=和in可以亂序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序，mysql的查詢優化器會幫你優化成索引可以識別的形式

3.儘量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*)，表示欄位不重複的比例，比例越大我們掃描的記錄數越少，唯一鍵的區分度是1，而一些狀態、性別欄位可能在大資料面前區分度就是0，那可能有人會問，這個比例有什麼經驗值嗎？使用場景不同，這個值也很難確定，一般需要join的欄位我們都要求是0.1以上，即平均1條掃描10條記錄

4.索引列不能參與計算，保持列“乾淨”，比如from_unixtime(create_time) = ’2014-05-29’就不能使用到索引，原因很簡單，b+樹中存的都是資料表中的欄位值，但進行檢索時，需要把所有元素都應用函式才能比較，顯然成本太大。所以語句應該寫成create_time = unix_timestamp(’2014-05-29’);

5.儘量的擴充套件索引，不要新建索引。比如表中已經有a的索引，現在要加(a,b)的索引，那麼只需要修改原來的索引即可

資料庫索引底層_B+樹詳解

資料庫索引底層_B+樹詳解

【面試題】資料庫索引及B樹、B+樹詳解

線段樹詳解

Gin 路由解析樹詳解

回文樹詳解

李超樹詳解

ES倒排索引與分詞詳解

線段樹詳解（單點更新與成段更新\區間更新操作）

左偏樹詳解

關係型資料庫全表掃描分片詳解

mysql乾貨——資料庫字符集和校對規則詳解

03 -1 pandas 中 DataFrame理解與建立、索引、運算的詳解以及例項

Mysql：Java程式碼實現資料庫定時備份與還原詳解

資料庫實體轉換的過程詳解

SQL Server中通用資料庫角色許可權的處理詳解

MPT樹詳解

HashMap底層實現原理詳解（轉載）

資料庫索引底層原理及優化

資料庫儲存過程儲存過程詳解

深入理解資料庫索引採用B樹和B+樹的原因

資料庫索引底層_B+樹詳解

相關推薦