散列表
摘要:
本章介紹了散列表(hash table)的概念、散列函數的設計及散列沖突的處理。散列表類似與字典的目錄,查找的元素都有一個key與之對應,在實踐當中,散列技術的效率是很高的,合理的設計散函數和沖突處理方法,可以使得在散列表中查找一個元素的期望時間為O(1)。散列表是普通數組概念的推廣,在散列表中,不是直接把關鍵字用作數組下標,而是根據關鍵字通過散列函數計算出來的。書中介紹散列表非常註重推理和證明,看的時候迷迷糊糊的,再次證明了數學真的很重要。在STL中map容器的功能就是散列表的功能,但是map采用的是紅黑樹實現的,後面接著學習,關於map的操作可以參考:http://www.cplusplus.com/reference/map/。
1、直接尋址表
當關鍵字的的全域(範圍)U比較小的時,直接尋址是簡單有效的技術,一般可以采用數組實現直接尋址表,數組下標對應的就是關鍵字的值,即具有關鍵字k的元素被放在直接尋址表的槽k中。直接尋址表的字典操作實現比較簡單,直接操作數組即可以,只需O(1)的時間。
2、散列表
直接尋址表的不足之處在於當關鍵字的範圍U很大時,在計算機內存容量的限制下,構造一個存儲|U|大小的表不太實際。當存儲在字典中的關鍵字集合K比所有可能的關鍵字域U要小的多時,散列表需要的存儲空間要比直接尋址表少的很多。散列表通過散列函數h計算出關鍵字k在槽的位置。散列函數h將關鍵字域U映射到散列表T[0....m-1]的槽位上。即h:U->{0,1...,m-1}。采用散列函數的目的在於縮小需要處理的小標範圍,從而降低了空間的開銷。
散列表存在的問題:兩個關鍵字可能映射到同一個槽上,即碰撞(collision)。需要找到有效的辦法來解決碰撞。
3、散列函數
好的散列函數的特點是每個關鍵字都等可能的散列到m個槽位上的任何一個中去,並與其他的關鍵字已被散列到哪一個槽位無關。多數散列函數都是假定關鍵字域為自然數N={0,1,2,....},如果給的關鍵字不是自然數,則必須有一種方法將它們解釋為自然數。例如對關鍵字為字符串時,可以通過將字符串中每個字符的ASCII碼相加,轉換為自然數。書中介紹了三種設計方案:除法散列法、乘法散法和全域散列法。
(1)除法散列法
通過取k除以m的余數,將關鍵字k映射到m個槽的某一個中去。散列函數為:h(k)=k mod m
(2)乘法散列法
乘法散列法構造散列函數需要兩個步驟。第一步,用關鍵字k乘上常數A(0<A<1),並抽取kA的小數部分。然後,用m乘以這個值的小數部分,再取結果的底。散列函數如下:h(k) = m(kA mod 1)。其中“kA mod 1”是取kA的小數部分。
(3)全域散列
給定一組散列函數H,每次進行散列時候從H中隨機的選擇一個散列函數h,使得h獨立於要存儲的關鍵字。全域散列函數類的平均性能是比較好的。
4、碰撞處理
通常有兩類方法處理碰撞:開放尋址(Open Addressing)法和鏈接(Chaining)法。前者是將所有結點均存放在散列表T[0..m-1]中;後者通常是把散列到同一槽中的所有元素放在一個鏈表中,而將此鏈表的頭指針放在散列表T[0..m-1]中。
(1)開放尋址法
所有的元素都在散列表中,每一個表項或包含動態集合的一個元素,或包含NIL。這種方法中散列表可能被填滿,以致於不能插入任何新的元素。在開放尋址法中,當要插入一個元素時,可以連續地檢查或探測散列表的各項,直到有一個空槽來放置待插入的關鍵字為止。有三種技術用於開放尋址法:線性探測、二次探測以及雙重探測。
<1>線性探測
給定一個普通的散列函數h‘:U —>{0,1,.....,m-1},線性探測方法采用的散列函數為:h(k,i) = (h‘(k)+i)mod m,i=0,1,....,m-1
探測時從i=0開始,首先探查T[h‘(k)],然後依次探測T[h‘(k)+1],…,直到T[h‘(k)+m-1],此後又循環到T[0],T[1],…,直到探測到T[h‘(k)-1]為止。探測過程終止於三種情況:
(1)若當前探測的單元為空,則表示查找失敗(若是插入則將key寫入其中);
(2)若當前探測的單元中含有key,則查找成功,但對於插入意味著失敗;
(3)若探測到T[h‘(k)-1]時仍未發現空單元也未找到key,則無論是查找還是插入均意味著失敗(此時表滿)。
線性探測方法較容易實現,但是存在一次群集問題,即連續被占用的槽的序列變的越來越長。采用例子進行說明線性探測過程,已知一組關鍵字為(26,36,41,38,44,15,68,12,6,51),用除余法構造散列函數,初始情況如下圖所示:
散列過程如下圖所示:
<2>二次探測
二次探測法的探查序列是:h(k,i) =(h‘(k)+i*i)%m ,0≤i≤m-1 。初次的探測位置為T[h‘(k)],後序的探測位置在次基礎上加一個偏移量,該偏移量以二次的方式依賴於i。該方法的缺陷是不易探查到整個散列空間。
<3>雙重散列
該方法是開放尋址的最好方法之一,因為其產生的排列具有隨機選擇的排列的許多特性。采用的散列函數為:h(k,i)=(h1(k)+ih2(k)) mod m。其中h1和h2為輔助散列函數。初始探測位置為T[h1(k)],後續的探測位置在此基礎上加上偏移量h2(k)模m。
(2)鏈接法
將所有關鍵字為同義詞的結點鏈接在同一個鏈表中。若選定的散列表長度為m,則可將散列表定義為一個由m個頭指針組成的指針數組T[0..m-1]。凡是散列地址為i的結點,均插入到以T[i]為頭指針的單鏈表中。T中各分量的初值均應為空指針。在拉鏈法中,裝填因子α可以大於1,但一般均取α≤1。
舉例說明鏈接法的執行過程,設有一組關鍵字為(26,36,41,38,44,15,68,12,6,51),用除余法構造散列函數,初始情況如下圖所示:
最終結果如下圖所示:
5、字符串散列
通常都是將元素的key轉換為數字進行散列,如果key本身就是整數,那麽散列函數可以采用keymod tablesize(要保證tablesize是質數)。而在實際工作中經常用字符串作為關鍵字,例如身姓名、職位等等。這個時候需要設計一個好的散列函數進程處理關鍵字為字符串的元素。參考《數據結構與算法分析》第5章,有以下幾種處理方法:
方法1:將字符串的所有的字符的ASCII碼值進行相加,將所得和作為元素的關鍵字。設計的散列函數如下所示:
int hash(const string& key,int tablesize)
{
int hashVal = 0;
for(int i=0;i<key.length();i++)
hashVal += key[i];
return hashVal % tableSize;
}
此方法的缺點是不能有效的分布元素,例如假設關鍵字是有8個字母構成的字符串,散列表的長度為10007。字母最大的ASCII碼為127,按照方法1可得到關鍵字對應的最大數值為127×8=1016,也就是說通過散列函數映射時只能映射到散列表的槽0-1016之間,這樣導致大部分槽沒有用到,分布不均勻,從而效率低下。
方法2:假設關鍵字至少有三個字母構成,散列函數只是取前三個字母進行散列。設計的散列函數如下所示:
int hash(const string& key,int tablesize)
{
//27 represents the number of letters plus the blank
return (key[0]+27*key[1]+729*key[2])%tablesize;
}
該方法只是取字符串的前三個字符的ASCII碼進行散列,最大的得到的數值是2851,如果散列的長度為10007,那麽只有28%的空間被用到,大部分空間沒有用到。因此如果散列表太大,就不太適用。
方法3:借助Horner‘s 規則,構造一個質數(通常是37)的多項式,(非常的巧妙,不知道為何是37)。計算公式為:key[keysize-i-1]37^i,0<=i<keysize求和。設計的散列函數如下所示:
int hash(const string & key,int tablesize)
{
int hashVal = 0;
for(int i =0;i<key.length();i++)
hashVal = 37*hashVal + key[i];
hashVal %= tableSize;
if(hashVal<0) //計算的hashVal溢出
hashVal += tableSize;
return hashVal;
}
該方法存在的問題是如果字符串關鍵字比較長,散列函數的計算過程就變長,有可能導致計算的hashVal溢出。針對這種情況可以采取字符串的部分字符進行計算,例如計算偶數或者奇數位的字符。
6、再散列(rehashing)
如果散列表滿了,再往散列表中插入新的元素時候就會失敗。這個時候可以通過創建另外一個散列表,使得新的散列表的長度是當前散列表的2倍多一些,重新計算各個元素的hash值,插入到新的散列表中。再散列的問題是在什麽時候進行最好,有三種情況可以判斷是否該進行再散列:
(1)當散列表將快要滿了,給定一個範圍,例如散列被中已經被用到了80%,這個時候進行再散列。
(2)當插入一個新元素失敗時候,進行再散列。
(3)根據裝載因子(存放n個元素的、具有m個槽位的散列表T,裝載因子α=n/m,即每個鏈子中的平均存儲的元素數目)進行判斷,當裝載因子達到一定的閾值時候,進行在散列。
在采用鏈接法處理碰撞問題時,采用第三種方法進行在散列效率最好。
7、實例練習
看完書後,有一股想把hash表實現的沖動。在此設計的散列表針對的是關鍵字為字符串的元素,采用字符串散列函數方法3進行設計散列函數,采用鏈接方法處理碰撞,然後采用根據裝載因子(指定為1,同時將n個元素映射到一個鏈表上,即n==m時候)進行再散列。采用C++,借助vector和list,設計的hash表框架如下:
#include<iostream>
#include<string>
#include<vector>
#include<list>
#include<algorithm>
#include<cstdlib>
#include<cmath>
using
namespace
std;
int
nextPrime(
const
int
n);
template
<
typename
T>
class
HashTable
{
public
:
HashTable(
int
size=101);
int
insert(
const
T& x);
int
remove
(
const
T& x);
int
contains(
const
T&x);
void
make_empty();
void
display()
const
;
private
:
vector<list<T>> lists;
size_t
currentSize;
int
hash(
const
string &key);
int
myhash(
const
T& x);
void
rehash();
};
template
<
typename
T>
HashTable<T>::HashTable(
int
size)
{
lists=vector<list<T>>(size);
currentSize=0;
}
template
<
typename
T>
int
HashTable<T>::hash(
const
string &key)
{
int
hashVal=0;
int
tableSize=lists.size();
size_t
i=0;
for
(i=0;i<key.length();++i)
hashVal=hashVal*37+key[i];
hashVal=hashVal%tableSize;
if
(hashVal<0)
hashVal+=tableSize;
return
hashVal;
}
template
<
typename
T>
int
HashTable<T>::myhash(
const
T &x)
{
string key=x.getName();
return
hash(key);
}
template
<
typename
T>
int
HashTable<T>::insert(
const
T &x)
{
list<T> &whichlist=lists[myhash(x)];
if
(find(whichlist.begin(),whichlist.end(),x)!=whichlist.end())
return
0;
whichlist.push_back(x);
currentSize+=1;
if
(currentSize>lists.size())
rehash();
return
1;
}
template
<
typename
T>
int
HashTable<T>::
remove
(
const
T &x)
{
typename
list<T>::iterator iter;
list<T> &whichlist=lists[myhash(x)];
iter=find(whichlist.begin(),whichlist.end(),x);
if
(iter!=whichlist.end())
{
whichlist.erase(iter);
currentSize--;
return
1;
//delete success
}
return
0;
//delete fail
}
template
<
typename
T>
int
HashTable<T>::contains(
const
T &x)
{
list<T> whichlist;
whichlist=lists[myhash(x)];
if
(find(whichlist.begin(),whichlist.end(),x)!=whichlist.end())
return
1;
else
return
0;
}
template
<
typename
T>
void
HashTable<T>::make_empty()
{
int
i;
for
(i=0;i<lists.size;i++)
lists[i].clear();
currentSize=0;
}
template
<
typename
T>
void
HashTable<T>::rehash()
{
vector<list<T>> oldlists=lists;
lists.resize(nextPrime(2*lists.size()));
size_t
i;
for
(i=0;i<lists.size();i++)
lists.clear();
//遍歷整個vector
for
(i=0;i<oldlists.size();i++)
{
typename
list<T>::iterator iter=oldlists[i].begin();
//對list中的每個元素重新插入
while
(iter!=oldlists[i].end())
insert(*iter++);
}
}
template
<
typename
T>
void
HashTable<T>::display()
const
{
size_t
i;
for
(i=0;i<lists.size();i++)
{
cout<<i<<
" : "
;
typename
std::list<T>::const_iterator iter=lists[i].begin();
while
(iter!=lists[i].end())
{
cout<<*iter++<<
" "
;
}
cout<<endl;
}
}
int
nextPrime(
const
int
n)
{
int
ret,i;
ret=n;
while
(1)
{
int
flag=1;
for
(i=2;i<
sqrt
(ret);i++)
{
if
(ret%i==0)
{
flag=0;
break
;
}
}
if
(flag==1)
break
;
else
{
ret++;
continue
;
}
}
return
ret;
}
class
Employee
{
public
:
Employee(){}
Employee(
const
string n,
int
s=0):name(n),salary(s) {}
const
string &getName()
const
{
return
name;}
bool
operator==(
const
Employee &rhs)
const
{
return
getName()==rhs.getName();
}
bool
operator!=(
const
Employee &rhs)
const
{
return
!(*
this
==rhs);
}
friend
ostream& operator<<(ostream &os,
const
Employee &e)
{
os<<
"("
<<e.name<<
","
<<e.salary<<
")"
;
return
os;
}
private
:
string name;
int
salary;
};
int
main()
{
Employee e1(
"Tom"
,6000);
Employee e2(
"Anker"
,7000);
Employee e3(
"Jermey"
,8000);
Employee e4(
"Lucy"
,7500);
HashTable<Employee> emp_table(13);
emp_table.insert(e1);
emp_table.insert(e2);
emp_table.insert(e3);
emp_table.insert(e4);
cout<<
"Hash table is: "
<<endl;
emp_table.display();
if
(emp_table.contains(e4) == 1)
cout<<
"Tom is exist in hash table"
<<endl;
if
(emp_table.
remove
(e1) == 1)
cout<<
"Removing Tom form the hash table successfully"
<<endl;
if
(emp_table.contains(e1) == 1)
cout<<
"Tom is exist in hash table"
<<endl;
else
cout<<
"Tom is not exist in hash table"
<<endl;
//emp_table.display();
exit
(0);
}
運行結果:
散列表