以 B tree 和 B+ tree 的區別來分析 MySQL 索引實現

阿新 • • 發佈：2018-12-29

轉自：https://www.jianshu.com/p/0371c9569736

B樹是一種多路自平衡搜尋樹，它類似普通的二叉樹，但是B書允許每個節點有更多的子節點。B樹示意圖如下：

B樹的特點：
（1）所有鍵值分佈在整個樹中
（2）任何關鍵字出現且只出現在一個節點中
（3）搜尋有可能在非葉子節點結束
（4）在關鍵字全集內做一次查詢，效能逼近二分查詢演算法

B+樹是B樹的變體，也是一種多路平衡查詢樹，B+樹的示意圖為：

從圖中也可以看到，B+樹與B樹的不同在於：
（1）所有關鍵字儲存在葉子節點，非葉子節點不儲存真正的data
（2）為所有葉子節點增加了一個鏈指標

那麼問題來了，為什麼用B/B+樹這種結構來實現索引呢？？
答：紅黑樹等結構也可以用來實現索引，但是檔案系統及資料庫系統普遍使用B/B+樹結構來實現索引。mysql是基於磁碟的資料庫，索引是以索引檔案的形式存在於磁碟中的，索引的查詢過程就會涉及到磁碟IO(為什麼涉及到磁碟IO請看文章後面的附加理解部分)消耗，磁碟IO的消耗相比較於記憶體IO的消耗要高好幾個數量級，所以索引的組織結構要設計得在查詢關鍵字時要儘量減少磁碟IO的次數。為什麼要使用B/B+樹，跟磁碟的儲存原理有關。
區域性性原理與磁碟預讀

為了提升效率，要儘量減少磁碟IO的次數。實際過程中，磁碟並不是每次嚴格按需讀取，而是每次都會預讀。磁碟讀取完需要的資料後，會按順序再多讀一部分資料到記憶體中，這樣做的理論依據是電腦科學中註明的區域性性原理：

當一個數據被用到時，其附近的資料也通常會馬上被使用
程式執行期間所需要的資料通常比較集中

（1）由於磁碟順序讀取的效率很高(不需要尋道時間，只需很少的旋轉時間)，
因此對於具有區域性性的程式來說，預讀可以提高I/O效率.預讀的長度一般為頁(page)的整倍數。
（2）MySQL(預設使用InnoDB引擎),將記錄按照頁的方式進行管理,每頁大小預設為16K(這個值可以修改)。linux 預設頁大小為4K。

B-Tree藉助計算機磁碟預讀的機制，並使用如下技巧：
每次新建節點時，直接申請一個頁的空間，這樣就保證一個節點物理上也儲存在一個頁裡，加之計算機儲存分配都是按頁對齊的，就實現了一個結點只需一次I/O。
假設 B-Tree 的高度為 h,B-Tree中一次檢索最多需要h-1次I/O（根節點常駐記憶體），漸進複雜度為O(h)=O(logdN)O(h)=O(logdN)。一般實際應用中，出度d是非常大的數字，通常超過100，因此h非常小（通常不超過3，也即索引的B+樹層次一般不超過三層，所以查詢效率很高）。
而紅黑樹這種結構，h明顯要深的多。由於邏輯上很近的節點（父子）物理上可能很遠，無法利用區域性性

，所以紅黑樹的I/O漸進複雜度也為O(h)，效率明顯比B-Tree差很多。

為什麼mysql的索引使用B+樹而不是B樹呢？？
（1）B+樹更適合外部儲存(一般指磁碟儲存),由於內節點(非葉子節點)不儲存data，所以一個節點可以儲存更多的內節點，每個節點能索引的範圍更大更精確。也就是說使用B+樹單次磁碟IO的資訊量相比較B樹更大，IO效率更高。
（2）mysql是關係型資料庫，經常會按照區間來訪問某個索引列，B+樹的葉子節點間按順序建立了鏈指標，加強了區間訪問性，所以B+樹對索引列上的區間範圍查詢很友好。而B樹每個節點的key和data在一起，無法進行區間查詢。

------------------------------------------------------------END----------------------------------------------------------------

附加理解知識點：

B樹是為了磁碟或其他裝置而設計的多岔（相對於二岔）平衡查詢樹。，所以B樹又叫平衡多路查詢樹。一顆m階的B樹的特性為：
1：樹中每個節點含有最多m個孩子(m > 2)。
2：除根節點和葉子節點外，其他每個中間節點都至少有[ceil(m/2)]個孩子，ceil為向上取整。（不是很明白。。。）

3：所有葉子節點都出現在同一層，且葉子節點不包含任何關鍵字資訊(可以看做是外部接點或查詢失敗的接點，實際上這些結點不存在，指向這些結點的指標都為null)
4：每個非葉子節點包含有n個關鍵字資訊(n，P0，K1，P1，K2，P2，......，Kn，Pn)，其中：
a) Ki (i=1...n)為關鍵字，且關鍵字按順序升序排序K(i-1)< Ki。
b) Pi為指向子樹根的接點，且指標P(i-1)指向子樹種所有結點的關鍵字均小於Ki，但都大於K(i-1)。
c) 關鍵字的個數n必須滿足： [ceil(m / 2)-1]<= n <= m-1。
這三天摘抄自文末參考，大致理解一下就行。

比如，我們通過上面那張btree結構來查詢29這個元素，查詢過程為：
（1）根據根節點找到檔案目錄的跟磁碟塊1，將其中的資訊裝入到記憶體中【磁碟IO操作第1次】
（2）此時記憶體中有兩個檔名17,35和三個儲存其他磁碟頁面地址的資料（指標），根據演算法我們發現17 < 29 <35，因此我們找到指標p2
（3）根據指標p2我們找到磁碟塊3，並將其中資訊裝入到記憶體中【磁碟IO操作第2次】
（4）此時記憶體中有兩個檔名26，30和三個儲存其他磁碟頁面地址的資料（指標），根據演算法我們發現26 <29<30，因為我們找到指標p2
（5）根據指標p2我們定位到磁碟塊8，並將其中資訊裝入記憶體【磁碟IO操作第3次】
（6）此時記憶體中有兩個檔名28，29。根據演算法我們查詢到檔案29，並定位了該檔案記憶體的磁碟地址。

參考:
由 B-/B+樹看 MySQL索引結構
 BTree和B+Tree詳解
 MySQL B+樹索引和雜湊索引的區別 ,這篇文章還提到了與hash索引的比較

以 B tree 和 B+ tree 的區別來分析 MySQL 索引實現

以 B tree 和 B+ tree 的區別來分析 MySQL 索引實現

B tree和B+ tree的區別

B-Tree和B+Tree

B-Tree和 B+Tree的資料儲存結構

B tree、B-tree和B+tree

B- Tree 和 B+ Tree

高效能Mysql:B-TREE和B+-TREE

B樹和B樹的實現 B-Tree

MySQL索引使用的資料結構：B-Tree和B+Tree

資料儲存檢索之B+樹和LSM-Tree

B-Tree 和 B+Tree 結構及應用，InnoDB 引擎， MyISAM 引擎

資料的儲存結構淺析LSM-Tree和B-tree

B樹, B-樹,B+樹,和B*樹的區別

B樹和B+樹的區別

B樹，B-樹和B+樹的區別

B樹和二叉排序樹（如紅黑樹）、B樹和B+樹的區別

【資料結構】【Java】B樹和B+樹區別

B+樹和B樹的區別

B-樹和B+樹的應用：數據搜索和數據庫索引

B樹和B+樹的總結

以 B tree 和 B+ tree 的區別來分析 MySQL 索引實現

相關推薦