MIT演算法導論——第七講.雜湊表

阿新 • • 發佈：2019-01-20

從作用上來講，構建雜湊表的目的是把搜尋的時間複雜度降低到O（1），考慮到一個長度為n的序列，如果依次去比較進行搜尋的話，時間複雜度是θ（n），或者對其先進行排序然後再搜尋會更快一些，但這兩種方法都不是最快的方法。
第一個話題：

計算機裡面所有儲存的內容都是數字，因此我們研究對數字構建雜湊表就夠了。先來考慮一下，一個好的雜湊函式H需要哪些特點：

1.雜湊函式的產生的鍵值要儘可能的均勻，不要出現聚集效應，也就是產生的各種h（k）要儘量的等概率的分佈到雜湊表的m個槽裡去，當然，如果已經知道了輸入的型別，我們可以設計出比較好的雜湊函式，但是每一個雜湊函式都有可能遇到一個特別針對他的輸入，以至於所有計算的健值都指向同一個槽。
（一個雜湊函式是否均勻的定義：x，y是兩個不同的健值，雜湊表的長度是m，P{h(x) = h(y)} =1/m )
2.雜湊函式本身不能太複雜，以至於計算的時間過長。

例，一些簡單的雜湊函式：
1.直接雜湊 h（k）=k，不會發生碰撞，但是佔用空間大，沒有意義
2.除法雜湊 h（k）=k mod m ，m的取值很有講究，不能去2和10的冪，這樣很多內容都被mod掉了，而且不能取得太小等等等，可以考慮去一個合適的質數。由於計算機裡經常用2和10的冪，不是很好用質數，而且還是除法，所以這種雜湊效率也不是很高
3.乘法雜湊，假設所有的key都是整數，m=2^r ，計算機字長是w，那麼構建h（k）=(A*k mod 2^w) rsh (w-r) 其中rsh是右移的意思，A的大小是2^（w-1）<A<2^w 這個雜湊函式的好處是，最後的取得h（k）實際上和每一位上的k值都相關，而A和2^w這兩個數是互質的，所以想象一個輪盤，周長是2冪，A肯定不是周長的倍數，k是轉了多少圈，那麼最後的h（k）就會有可能落到輪盤的任意位置。

第二個話題：
就像之前提到的，無論設計一個怎樣的雜湊函式，碰撞都難以避免，那麼如何來解決碰撞的問題呢？主要有以下兩種方法：
1.連結法，每一次碰撞都新增一個連結串列，這樣做會增加雜湊表的大小，最壞的情況會導致所有的值都指向同一個槽，然後雜湊表變成了一個連結串列，我們的查詢也變成了連結串列的查詢。
2.開放定址法，在不增加雜湊表容量的情況下，繼續對該表進行“探測”，直到找到一個空位置把內容放進去。 wikipedia裡面對此的解釋是這樣的（Open addressing, or closed hashing, is a method of collision resolution in hash tables

. With this method a hash collision is resolved by probing）

分析第一種方法——連結串列法：

在最壞的情況下，那就是所有的h（k）都指向了同一個槽，那麼雜湊表實際上就是一個連結串列，在連結串列中查詢一個值的時間複雜度是θ（n），在最好的情況下，沒有發生碰撞那麼時間為θ（1）。定義α=n/m為雜湊表的裝載因子，一次成功的搜尋平均用時θ（1+α/2）1表示計算H的時間，α/2表示在連結串列中所用的平均時間，所以如果n=O（m）那麼α就是常數，在這個雜湊表中搜索的時間就為θ（1），同時，考慮平均情況下的最壞情況的搜尋，時間為θ（1+α），

分析第二種方法——“開放定址”（封閉雜湊）
這種方法主要通過“探尋”來在雜湊表中尋找下一個空位置，把值存進去，查詢的時候也採用同樣的方法，一步一步查詢到目標鍵值。
探尋的方法有：
1.線性探尋
2.非線性探尋
3.雙重雜湊探尋
4.偽隨機序列探尋
這些方法都有一定的侷限性，有可能造成頂級或者次級聚集
現在來分析開放定址的效率，首先給出理論：對於一個開放定址的雜湊表，α=n/m<1，那麼一次不成功搜尋的預期探尋次數為1/(1-α).
由此可見，如果α=50% 那麼預期探尋次數為2，如果α=90%，預期探尋次數將會顯著升高到10，因此在這種策略下，α的大小至關重要（聯想到同一天生日的問題，也是這個道理），在工程上某些採用此策略的雜湊表會強制α小於75%，如果超過這個值會自動擴充雜湊表。
預期探尋次數1/(1-α)是怎樣算出來的，如下：
1.首先，查詢一個值至少需要1次探尋
2.有n/m的可能性會發生碰撞，我們需要第二次探尋
3.有(n-1)/(m-1)的可能性第二次探尋也發生了碰撞
……
觀察到(n-i)/(m-i)<α i=1,2,3……n

MIT演算法導論——第七講.雜湊表

MIT演算法導論——第七講.雜湊表

演算法導論第七章：快速排序筆記（快速排序的描述、快速排序的效能、快速排序的隨機化版本、快速排序分析）

MIT演算法導論第三節筆記——分治思想

演算法導論第七章快速排序與隨機快速排序

演算法導論第七章課後答案

PE格式第七講,重定位表

七、雜湊表與字串（小象）

【資料結構與演算法】【查詢】雜湊表的程式碼實現

淺談演算法和資料結構：雜湊表

演算法與資料結構基礎 - 雜湊表(Hash Table)

MIT演算法導論公開課第八講全域雜湊和完全雜湊

演算法導論第十一章：散列表筆記（直接定址表、散列表、通過連結法解決碰撞、雜湊函式、開放定址法、完全雜湊）

查詢演算法淺談演算法和資料結構: 七二叉查詢樹淺談演算法和資料結構: 十一雜湊表

資料結構和演算法精講版（陣列、棧、佇列、連結串列、遞迴、排序、二叉樹、紅黑樹、堆、雜湊表）Java版

MIT 線性代數導論第六講：列空間以及零空間

MIT 線性代數導論第九講：四個基本子空間

資料結構和演算法分析：第五章雜湊

Java第十七天學習筆記~（集合框架linkedlist、雜湊表）

資料結構學習筆記七（雜湊演算法）

MIT演算法導論公開課之第18課最短路徑演算法、Bellman和差分約束系統

MIT演算法導論——第七講.雜湊表

相關推薦