B tree和B+ tree的區別
B樹是一種多路自平衡搜尋樹,它類似普通的二叉樹,但是B書允許每個節點有更多的子節點。B樹示意圖如下:
B樹的特點:
(1)所有鍵值分佈在整個樹中
(2)任何關鍵字出現且只出現在一個節點中
(3)搜尋有可能在非葉子節點結束
(4)在關鍵字全集內做一次查詢,效能逼近二分查詢演算法
B+樹是B樹的變體,也是一種多路平衡查詢樹,B+樹的示意圖為:
從圖中也可以看到,B+樹與B樹的不同在於:
(1)所有關鍵字儲存在葉子節點,非葉子節點不儲存真正的data
(2)為所有葉子節點增加了一個鏈指標
那麼問題來了,為什麼用B/B+樹這種結構來實現索引呢??
答:紅黑樹等結構也可以用來實現索引,但是檔案系統及資料庫系統普遍使用B/B+樹結構來實現索引。mysql是基於磁碟的資料庫,索引是以索引檔案的形式存在於磁碟中的,索引的查詢過程就會涉及到磁碟IO(為什麼涉及到磁碟IO請看文章後面的附加理解部分)消耗,磁碟IO的消耗相比較於記憶體IO的消耗要高好幾個數量級,所以索引的組織結構要設計得在查詢關鍵字時要儘量減少磁碟IO的次數。為什麼要使用B/B+樹,跟磁碟的儲存原理有關。
區域性性原理與磁碟預讀
為了提升效率,要儘量減少磁碟IO的次數。實際過程中,磁碟並不是每次嚴格按需讀取,而是每次都會預讀。磁碟讀取完需要的資料後,會按順序再多讀一部分資料到記憶體中,這樣做的理論依據是電腦科學中註明的區域性性原理:
當一個數據被用到時,其附近的資料也通常會馬上被使用
程式執行期間所需要的資料通常比較集中
(1)由於磁碟順序讀取的效率很高(不需要尋道時間,只需很少的旋轉時間),
因此對於具有區域性性的程式來說,預讀可以提高I/O效率.預讀的長度一般為頁(page)的整倍數。
(2)MySQL(預設使用InnoDB引擎),將記錄按照頁的方式進行管理,每頁大小預設為16K(這個值可以修改)。linux 預設頁大小為4K。
B-Tree藉助計算機磁碟預讀的機制,並使用如下技巧:
每次新建節點時,直接申請一個頁的空間,這樣就保證一個節點物理上也儲存在一個頁裡,加之計算機儲存分配都是按頁對齊的,就實現了一個結點只需一次I/O。
假設 B-Tree 的高度為 h,B-Tree中一次檢索最多需要h-1次I/O(根節點常駐記憶體),漸進複雜度為O(h)=O(logdN)O(h)=O(logdN)。一般實際應用中,出度d是非常大的數字,通常超過100,因此h非常小(通常不超過3,也即索引的B+樹層次一般不超過三層,所以查詢效率很高)。
而紅黑樹這種結構,h明顯要深的多。由於邏輯上很近的節點(父子)物理上可能很遠,無法利用區域性性,所以紅黑樹的I/O漸進複雜度也為O(h),效率明顯比B-Tree差很多。
為什麼mysql的索引使用B+樹而不是B樹呢??
(1)B+樹更適合外部儲存(一般指磁碟儲存),由於內節點(非葉子節點)不儲存data,所以一個節點可以儲存更多的內節點,每個節點能索引的範圍更大更精確。也就是說使用B+樹單次磁碟IO的資訊量相比較B樹更大,IO效率更高。
(2)mysql是關係型資料庫,經常會按照區間來訪問某個索引列,B+樹的葉子節點間按順序建立了鏈指標,加強了區間訪問性,所以B+樹對索引列上的區間範圍查詢很友好。而B樹每個節點的key和data在一起,無法進行區間查詢。
------------------------------------------------------------END----------------------------------------------------------------
附加理解知識點:
B樹是為了磁碟或其他裝置而設計的多岔(相對於二岔)平衡查詢樹。,所以B樹又叫平衡多路查詢樹。一顆m階的B樹的特性為:
1:樹中每個節點含有最多m個孩子(m > 2)。
2:除根節點和葉子節點外,其他每個中間節點都至少有[ceil(m/2)]個孩子,ceil為向上取整。(不是很明白。。。)
3:所有葉子節點都出現在同一層,且葉子節點不包含任何關鍵字資訊(可以看做是外部接點或查詢失敗的接點,實際上這些結點不存在,指向這些結點的指標都為null)
4:每個非葉子節點包含有n個關鍵字資訊(n,P0,K1,P1,K2,P2,…,Kn,Pn),其中:
a) Ki (i=1…n)為關鍵字,且關鍵字按順序升序排序K(i-1)< Ki。
b) Pi為指向子樹根的接點,且指標P(i-1)指向子樹種所有結點的關鍵字均小於Ki,但都大於K(i-1)。
c) 關鍵字的個數n必須滿足: [ceil(m / 2)-1]<= n <= m-1。
這三天摘抄自文末參考,大致理解一下就行。
比如,我們通過上面那張btree結構來查詢29這個元素,查詢過程為:
(1)根據根節點找到檔案目錄的跟磁碟塊1,將其中的資訊裝入到記憶體中【磁碟IO操作第1次】
(2)此時記憶體中有兩個檔名17,35和三個儲存其他磁碟頁面地址的資料(指標),根據演算法我們發現17 < 29 <35,因此我們找到指標p2
(3)根據指標p2我們找到磁碟塊3,並將其中資訊裝入到記憶體中【磁碟IO操作第2次】
(4)此時記憶體中有兩個檔名26,30和三個儲存其他磁碟頁面地址的資料(指標),根據演算法我們發現26 <29<30,因為我們找到指標p2
(5)根據指標p2我們定位到磁碟塊8,並將其中資訊裝入記憶體【磁碟IO操作第3次】
(6)此時記憶體中有兩個檔名28,29。根據演算法我們查詢到檔案29,並定位了該檔案記憶體的磁碟地址。