1. 程式人生 > >hash相對B樹優缺點

hash相對B樹優缺點

個人總結,非標準,熱切盼望各位看官補充或拍磚。

hash 相對 B-Tree 的優點:

1、快

不論雜湊表中有多少資料,插入和刪除只需要接近0(1)的時間。實際上,這隻需要幾條機器指令。B樹的操作通常需要O(logN)的時間級。雜湊表不僅速度快,程式設計實現也相對容易。

hash 相對 B-Tree 的缺點:

1、擴充套件性差,需要提前預測資料量的大小

雜湊表是基於陣列的,陣列建立後難於擴充套件某些雜湊表被基本填滿時,效能下降得非常嚴重,所以程式設計師必須要清楚表中將要儲存多少資料(或者準備好定期地把資料轉移到更大的雜湊表中,這是個費時的過程)。因為動態Hash一直是一個比較難的問題,所以開始為了保證較合適的填充因子,所以不得不開一個比較大的空間來儲存索引,此時資料內容的條數可能並不是很多。

而B樹,擴充套件性比較好。

2、不能有序遍歷資料

沒有一種簡便的方法可以以任何一種順序〔例如從小到大)遍歷表中資料項。B樹闊以輕鬆搞定(中序遍歷即可:O(N * log(ceil(m/2) N))),B+樹闊以更輕鬆地搞定(掃一遍葉子結點即可:O(N))。

3、B樹磁碟IO次數少

而hash如果同一個桶裡的資料如果比較多,難免增加不少IO次數。而磁碟IO次數往往決定了索引速度。

關於為什麼資料庫更多的採用B樹系列,而不用看起來更快的hash索引,找到一篇博文,感覺說的更專業,但是要點好像不外乎上邊提到的,也貼上如下:

http://blog.sina.com.cn/s/blog_6776884e0100pko1.html

(1)Hash 索引僅僅能滿足"=","IN"和"<=>"查詢,不能使用範圍查詢。
     由於 Hash 索引比較的是進行 Hash 運算之後的 Hash 值,所以它只能用於等值的過濾,不能用於基於範圍的過濾,因為經過相應的 Hash 演算法處理之後的 Hash 值的大小關係,並不能保證和Hash運算前完全一樣。

(2)Hash 索引無法被用來避免資料的排序操作。
     由於 Hash 索引中存放的是經過 Hash 計算之後的 Hash 值,而且Hash值的大小關係並不一定和 Hash 運算前的鍵值完全一樣,所以資料庫無法利用索引的資料來避免任何排序運算;

(3)Hash 索引不能利用部分索引鍵查詢。
     對於組合索引,Hash 索引在計算 Hash 值的時候是組合索引鍵合併後再一起計算 Hash 值,而不是單獨計算 Hash 值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash 索引也無法被利用。

(4)Hash 索引在任何時候都不能避免表掃描。
     前面已經知道,Hash 索引是將索引鍵通過 Hash 運算之後,將 Hash運算結果的 Hash 值和所對應的行指標資訊存放於一個 Hash 表中,由於不同索引鍵存在相同 Hash 值,所以即使取滿足某個 Hash 鍵值的資料的記錄條數,也無法從 Hash 索引中直接完成查詢,還是要通過訪問表中的實際資料進行相應的比較,並得到相應的結果。

(5)Hash 索引遇到大量Hash值相等的情況後效能並不一定就會比B-Tree索引高。
     對於選擇性比較低的索引鍵,如果建立 Hash 索引,那麼將會存在大量記錄指標資訊存於同一個 Hash 值相關聯。這樣要定位某一條記錄時就會非常麻煩,會浪費多次表資料的訪問,而造成整體效能低下。