B+樹的資料結構理解

阿新 • • 發佈：2018-12-25

B+樹的結構示意圖：

如上圖，是一顆b+樹，關於b+樹的定義可以參見B+樹，淺藍色的塊我們稱之為一個磁碟塊，可以看到每個磁碟塊包含幾個資料項（深藍色所示）和指標（黃色所示），如磁碟塊1包含資料項17和35，包含指標P1、P2、P3，P1表示小於17的磁碟塊，P2表示在17和35之間的磁碟塊，P3表示大於35的磁碟塊。真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不儲存真實的資料，只儲存指引搜尋方向的資料項，如17、35並不真實存在於資料表中。

###b+樹的查詢過程

如圖所示，如果要查詢資料項29，那麼首先會把磁碟塊1由磁碟載入到記憶體，此時發生一次IO，在記憶體中用二分查詢確定29在17和35之間，鎖定磁碟塊1的P2指標，記憶體時間因為非常短（相比磁碟的IO）可以忽略不計，通過磁碟塊1的P2指標的磁碟地址把磁碟塊3由磁碟載入到記憶體，發生第二次IO，29在26和30之間，鎖定磁碟塊3的P2指標，通過指標載入磁碟塊8到記憶體，發生第三次IO，同時記憶體中做二分查詢找到29，結束查詢，總計三次IO。真實的情況是，3層的b+樹可以表示上百萬的資料，如果上百萬的資料查詢只需要三次IO，效能提高將是巨大的，如果沒有索引，每個資料項都要發生一次IO，那麼總共需要百萬次的IO，顯然成本非常非常高。

###b+樹性質
1.通過上面的分析，我們知道IO次數取決於b+數的高度h，假設當前資料表的資料為N，每個磁碟塊的資料項的數量是m，則有h=㏒(m+1)N，當資料量N一定的情況下，m越大，h越小；而m = 磁碟塊的大小 / 資料項的大小，磁碟塊的大小也就是一個數據頁的大小，是固定的，如果資料項佔的空間越小，資料項的數量越多，樹的高度越低。這就是為什麼每個資料項，即索引欄位要儘量的小，比如int佔4位元組，要比bigint8位元組少一半。這也是為什麼b+樹要求把真實的資料放到葉子節點而不是內層節點，一旦放到內層節點，磁碟塊的資料項會大幅度下降，導致樹增高。當資料項等於1時將會退化成線性表。

2.當b+樹的資料項是複合的資料結構，比如(name,age,sex)的時候，b+數是按照從左到右的順序來建立搜尋樹的，比如當(張三,20,F)這樣的資料來檢索的時候，b+樹會優先比較name來確定下一步的所搜方向，如果name相同再依次比較age和sex，最後得到檢索的資料；但當(20,F)這樣的沒有name的資料來的時候，b+樹就不知道下一步該查哪個節點，因為建立搜尋樹的時候name就是第一個比較因子，必須要先根據name來搜尋才能知道下一步去哪裡查詢。比如當(張三,F)這樣的資料來檢索時，b+樹可以用name來指定搜尋方向，但下一個欄位age的缺失，所以只能把名字等於張三的資料都找到，然後再匹配性別是F的資料了，這個是非常重要的性質，即索引的最左匹配特性。

B+樹的資料結構理解

B樹、B+樹資料結構及操作

為什麼mysql innodb索引是B+樹資料結構

B+樹的資料結構理解

B-Tree、B+Tree、紅黑樹、B*Tree資料結構

索引基礎——B-Tree、B+Tree、紅黑樹、B*Tree資料結構

18.11.02 由中根序列和後根序列重建二叉樹-資料結構習題

哈夫曼樹——————資料結構作業

二叉樹----資料結構:二叉樹的三種遍歷,利用遞迴演算法。

二叉樹資料結構實現

B - 樹-堆結構練習——合併果子之哈夫曼樹

B-tree B+tree 資料結構解析

[轉]B+樹的結構和實現程式碼

B-Tree 資料結構及Java 實現

B-樹的結構（一）

堆排序演算法基於二叉樹資料結構的python實現

線段樹資料結構詳解與模板

java實現的Trie樹資料結構

無限級目錄樹資料結構前端實現

TrieTree字典樹資料結構的原理、實現及應用

什麼是泛型?,Set集合,TreeSet集合自然排序和比較器排序,資料結構-二叉樹,資料結構-平衡二叉樹

B+樹的資料結構理解

相關推薦