資料庫索引的基石----B樹

阿新 • • 發佈：2021-01-06

資料結構相對來說比較枯燥，我儘量用最易懂的話，來把B樹講清楚。
學過資料結構的人都接觸過一個概念二叉樹,簡單來說,就是每個父節點最多有兩個子節點。
為了在二叉樹上更快的進行元素的查詢，人們通過不斷的改進，從而設計出平衡二叉查詢樹，也就是這個樣子：

平衡二叉查詢樹的特性由於不是本文的重點，這裡就不再展開了。值得一提的是平衡二叉查詢樹已經基本滿足了我們平常的軟體開發需求了。但是對於一些需要持久化資料並且支援查詢的業務來說，平衡二叉查詢樹存在一個明顯的問題：
如果資料已經持久化到硬盤裡邊，而我們又想要查詢資料的話，我們需要把資料先載入到記憶體裡邊再進行比較。
但是，想一想你是不是沒法直接判斷硬盤裡邊包含某一段關鍵字？

如果想要判斷，必須要先把資料讀到記憶體裡邊才可以。如果資料量小的話，這種載入硬碟資料的效能損耗基本可以忽略掉，可是如果資料量大的話，你總不能一次把全部資料載入到記憶體中再計算。即使你能等，記憶體也支撐不住。所以我們的辦法就是分段查詢，一段一段的取到記憶體裡邊進行比較，可是這樣無論是取多大，怎麼比較，又是一個問題。而且更要命的是，倘若過於頻繁的一段段從硬碟中取資料的話，浪費在讀取資料的效能實在讓人可惜。
基於種種原因，於是有人對平衡二叉查詢樹提出了改良：
1970年Rudolf Bayer,Edward M. McCreight 首次在論文中提到了一種新型的樹，並且稱之為B樹，意味balance tree 平衡樹，也稱之為 B-樹（千萬不可稱之為B減樹哦），B_樹等。

其實原理很簡單，節點不再是二叉查詢樹那樣的只儲存一個關鍵字，而是儲存了多個關鍵字。這些關鍵字按照順序排好。然後還是按照左邊當前節點中的關鍵字都小，右邊比當前節點中的資料都大的形式，進行擴充套件。簡單來看，就是這個樣子了：

接著為了增加子節點繼續擴充套件的能力，允許一個節點可以多叉，但是依賴的原則還是基本不變的：每一個節點（更準確的說法是關鍵字）的左分叉要比當前節點的數字小，右分叉要比當前節點數字大。
所以我們基本可以理解為
B樹=節點從單一關鍵字擴充套件成多關鍵字+二叉擴充套件為多叉。到這裡，我們基本就算是搞懂B樹是什麼樣子了。
試想一下，如果是這個樣子的話，我們的程式就可以先把資料按照節點為單位，一次讀取若干個關鍵字到記憶體中。(防盜連線：本文首發自http://www.cnblogs.com/jilodream/ )然後在記憶體中進行比較，接著確定好目標所在的下一個分叉，然後獲取下一個分叉節點的資料。大概是下邊這個樣子：

但是出於更嚴格要求，B樹的定義要複雜的多。
首先我們要明白一個詞：階 degree
這個詞用來描述一個節點能包含的最大關鍵字的孩子的個數，也就是說節點最多有多少個分叉，而節點能裝的關鍵字的個數，就是分叉樹-1.
注意這個階是不隨著節點關鍵字的增加和減少來改變的，而是最初定義的一個屬性。節點增加關鍵字和減少關鍵字都不會改變這個樹最初定義的階的。
接下來圍繞這個階我們設定一些規則，保證B樹增加和減少關鍵字後，整個樹仍然是高效可用的。
（1）樹中每個節點最多有m個孩子
直白的說：每個節點最多有m個分叉
（2）除去根節點這葉子節點外，其它節點至少有m/2個孩子
（3）根節點至少有2個孩子
直白的說：如果是樹中間的節點（非根非葉子），那麼每個節點至少都有一半的分叉有孩子，如果是根節點那麼就最少有2個孩子
（4）所有葉節點在同一層，B樹的葉節點可以看成是一種外部節點,不包含任何資訊
直白的說:所有的葉節點都和高度最高的葉節點呢,畫在一個水平線上,這些葉子節點呢,是用來記錄外部資訊的。可以用空指標表示，代表查詢失敗到達的位置。
（5）有k個關鍵字（注意節點中的關鍵字要排好順序）的非葉節點恰好有k+1個孩子。
直白的說：1、節點中的關鍵字排好順序，這樣方便我們查詢
2、有k個關鍵字就要有k+1個分叉（孩子）
如下圖，就是一個多層的B樹了，但是要注意，這棵B樹畫的並不標準，最下層的節點並非葉子，葉子節點是基於這一層節點作為父節點的子節點，在圖中葉子節點沒有被畫出來。（參考第四條）

接下來基於這棵B樹，我們舉個例子，來查詢17這個數字：
第一步：記憶體載入根節點13，我們比較發現17>13，找13的右側分叉節點（15，20）
第二步：記憶體載入節點（15，20），我們比較15，發現 17>15,再比較20，發現17<20,於是取出15的右側分叉節點（16，17）
第三步：記憶體載入節點（16，17），我們比較16，發現17>16,再比較17，發現17=17，發現命中，取出17所對應的資料。
我們再舉個例子，來查詢18這個數字：
前兩步都相同
第三步：記憶體載入節點（16，17），我們比較16，發現18>16,再比較17，發現18>17，於是我們要找17右側的分叉，但是此時右側的葉子節點為空（17的右側分叉對應葉子節點，葉子節點為空），所以我們斷定，18不存在。
注意無論是否存在，我們最多都只用了3次記憶體載入，就完成了比較查詢。
這裡要特別提下，為啥我們只看重記憶體載入的速度，而忽略比較次數的耗時呢？(防盜連線：本文首發自http://www.cnblogs.com/jilodream/ )這是因為我們在分析效能問題時，需要著重效能的瓶頸來分析。磁碟的讀取和記憶體的訪問接近有5個數量級的差異（單位大概是10毫秒與50微秒的差距）。因此我們在這裡比較效能時，就是要看進行了多少次磁碟的讀取（磁碟的IO），並且主要以減少磁碟IO的手段來提升效能。

當然為了提升比較次數，我們還可以採用二分查詢的方式，來判斷節點中是否包含某個關鍵字，進一步加快速度。
接下來影響提升整個IO次數的瓶頸就出現在，一個節點到底能儲存多少個關鍵字，如果關鍵字儲存的越多，我們一次載入到記憶體中的資料也就越多。同時也要注意，這個關鍵字的個數不能設定成無限大，因為記憶體不足以支撐一次載入太多的資料。
基於以上種種，我們可以發現，B樹是基於傳統硬碟與記憶體之間的IO差距，而專門設計出來的資料結構，他天然就適用於檔案系統。
而對於B樹的升級版B+樹（B plus tree）,我會在接下來的文章中專門講講,它又有什麼不一樣的地方。<

相關推薦

深入理解資料庫索引採用B樹和B+樹的原因

前面幾篇關於資料庫底層磁碟檔案讀取，資料庫索引實現細節進行了深入的研究，但是沒有串聯起來的講解為什麼資料庫索引會採用B樹和B+樹而不是其他的資料結構，例如平衡二叉樹、連結串列等，因此，本文打算從資料庫檔案儲存以及讀取說起，講解資料庫索引的由來。

【面試題】資料庫索引及B樹、B+樹詳解

最近準備找一個實習，所以接下來，會通過其他人分享的面經陸續的總結面試中經常遇到的題今天是關於資料庫索引，以及具體的實現（B樹及B+樹）本文參考自兩篇部落格（個人認為是最好的相關部落格了）資料庫索引部分：http://blog.csdn.net/weilianglian

資料庫索引（B樹，B+樹，雜湊）

資料庫索引是儲存引擎用於快速找到記錄的一種資料結構。《高效能MySQL》一. 什麼是索引？

面試總結（資料庫索引、B樹、B+樹）

1. 資料庫系統維護著滿足特定查詢演算法的資料結構，這些資料結構以某種方式引用（指向）資料，這樣就可以在這些資料結構上實現高階查詢演算法。這種資料結構，就是索引。索引的實現通常使用B樹及其變種B+樹。建立索引可以大大提高系統的效能。第一、

資料庫索引為什麼B樹結構

這是一個很深的問題，我採用逐步問答的方式來解答。試圖用最簡潔的語言解決整體概念上的問題。本文目的純粹是提供對“索引採用B樹結構”這個問題的一種入門概念，不涉及深入的東西。資料庫索引為什麼會選擇B樹結構？答：因為使用B樹查詢時，所用的磁碟IO操作次數比平衡二叉樹更少，效率

為什麼資料庫索引使用B+樹實現

資料庫索引通常使用B樹及其變種B+樹。資料庫索引是資料庫管理系統中一個排序的資料結構，以協助快速查詢、更新資料庫表中資料。為了弄清楚資料庫索引為B+樹的原因，我們先來介紹B+樹幾個“近親”。 1.二叉樹二叉樹是每個結點只能有兩個子樹的樹結構。

資料庫索引的基石----B樹

資料結構相對來說比較枯燥，我儘量用最易懂的話，來把B樹講清楚。學過資料結構的人都接觸過一個概念二叉樹,簡單來說,就是每個父節點最多有兩個子節點。為了在二叉樹上更快的進行元素的查詢，人們通過不斷的改進，從而設計出平衡二叉查詢樹，也就是這個樣子：平衡二叉查詢樹的特性由於不是本文的重點，這裡就不再展開了。值

為什麼MySQL資料庫要用B+樹儲存索引？

要回答好這個問題，首先我們要弄懂什麼是索引？索引常見的資料結構有哪些？這些資料結構有何優缺點？只有弄懂這些，再去比較，才會知道為啥要用B+樹作為MySQL資料庫的儲存索引了。一、索引是什麼？ MySQL官方對索引的定義為：索引（Index）是幫助MySQL高效獲取資料的資料結構。它的本質就是

【漫畫】為什麼MySQL資料庫要用B+樹儲存索引？

小史是一個應屆生，雖然學的是電子專業，但是自己業餘時間看了很多網際網路與程式設計方面的書，一心想進BAT網際網路公司。話說兩個多月前，小史通過了A廠的一面，兩個多月後的今天，小史終於等到了A廠的二面。簡單的自我介紹後，面試官看了看小史的簡歷，開始發問了。【面試現場】

資料庫檢索索引之--- B 樹

B樹索引是一個典型的樹結構，始終是平衡的，也就是說從Root節點到 Leaf 節點的任何一個路徑都是等距離的。其包含的元件主要是：葉子節點（Leaf node）：包含

查詢資料結構及Mysql資料庫索引原理(B-/+Tree)

轉載：https://blog.csdn.net/u014800380/article/details/64441164 摘要：本文內容主要來源於網際網路上主流文章，只是按照個人理解稍作整合，後面附有參考連結。 https://yq.aliyun.co

樹形索引（B-樹查詢、插入、刪除）

一、B-樹定義B-樹上每個節點包含多個關鍵碼從小到大排序，是一種平衡的多路查詢樹。最底層節點稱為外節點或葉結點，一般可省略。除了外結點，B-樹上的節點還有終端結點（葉結點的上一層）和非終端結點（終端結點

資料庫為什麼用B+樹

B樹的特點：首先B樹是很嚴格的平衡二叉搜尋樹（葉子節點深度都相同，相比較而言紅黑樹那傢伙可沒這麼守規矩），每個節點中的關鍵字可以有很多。由於 1 中所述的原因， B樹的節點大小與磁碟頁一樣大（Linux中一般是4K）。至於為什麼要和磁碟也一樣大？這是和虛擬儲存器系統執行的機制有關，儲存器對映是虛擬頁（磁碟

樹形索引（B+樹）

一棵m階的B+樹和m階的B-樹的異同點在於：      1.有n棵子樹的結點中含有n 個關鍵字，即每個關鍵碼對應一顆子樹      2.所有的終端結點中包含了全部關鍵字的資訊，及指向含有這些關鍵字記錄的

雜湊索引和B+樹索引的區別

邏輯區別 hash演算法立刻定位對應的hash筒的關鍵字 b+數可能會做3次IO 最大4次IO 最小的話直接記憶體取出結果 hash： 1.只能等值查詢不能排序 2.hash碰撞 3.不支援範圍排序 4.hash筒大了維護成本更大大資料的情況下b+索引比hash索

資料庫索引底層_B+樹詳解

索引：它的底層結構是B+樹。這個大家都知道，但是為什麼用B+樹當他的底層資料結構呢？為什麼不是B樹呢？原因是：B+樹最大的好處就是方便掃庫，B樹必須用中序遍歷的方法按序掃庫，而B+樹直接從葉子節點挨個掃個遍(B+樹葉子節點是大於兩個的，所有的關鍵字都在葉子節點出現，非葉子節

hash索引跟B樹索引的區別

Hash 索引結構的特殊性，其檢索效率非常高，索引的檢索可以一次定位，不像B-Tree 索引需要從根節點到枝節點，最後才能訪問到頁節點這樣多次的IO訪問，所以 Hash 索引的查詢效率要遠高於 B-Tree 索引。       可能很多人又有疑問了，既然 Has

為什麼mysql innodb索引是B+樹資料結構

先從資料結構的角度來答。題主應該知道B-樹和B+樹最重要的一個區別就是B+樹只有葉節點存放資料，其餘節點用來索引，而B-樹是每個索引節點都會有Data域。這就決定了B+樹更適合用來儲存外部資料，也就是所謂的磁碟資料。從Mysql（Inoodb）的角度來看，B+樹是用來充當索引的，一般來說索引非常大，尤其是

B-樹和B+樹的應用資料搜尋和資料庫索引

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

深入理解mysql資料庫B+樹索引

索引的作用：首先索引通俗來講就像書的目錄，通過索引可以快速查詢對應資料，但這僅僅是表面上的，索引主要作用有3點，這僅僅算作其中1點。以下是鄙人的理解：通過索引可以減少資料的掃描量（例如上面提到的將全書掃描，變成了根據目錄找）索引可以把對硬碟的隨機IO變為順序IO（）