Hash Compared & ELFHash 詳解
阿新 • • 發佈:2018-12-23
- 部分轉載自here
常用HASH演算法 程式碼 & 比較
- 常用的字串Hash函式還有ELFHash,APHash等等,都是十分簡單有效的方法。這些函式使用位運算使得每一個字元都對最後的函式值產生影響。另外還有以MD5和SHA1為代表的雜湊函式,這些函式幾乎不可能找到碰撞。
- 常用字串雜湊函式有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。對於以上幾種雜湊函式,我對其進行了一個小小的評測。
Hash函式 資料1 資料2 資料3 資料4 資料1 得分 資料2得分 資料3得分 資料4得分 平均分
BKDRHash 2 0 4774 481 96.55 100 90.95 82.05 92.64
APHash 2 3 4754 493 96.55 88.46 100 51.28 86.28
DJBHash 2 2 4975 474 96.55 92.31 0 100 83.43
JSHash 1 4 4761 506 100 84.62 96.83 17.95 81.94
RSHash 1 0 4861 505 100 100 51.58 20.51 75.96
SDBMHash 3 2 4849 504 93.1 92.31 57.01 23.08 72.41
PJWHash 30 26 4878 513 0 0 43.89 0 21.95
ELFHash 30 26 4878 513 0 0 43.89 0 21.95
- 其中資料1為100000個字母和數字組成的隨機串雜湊衝突個數。資料2為100000個有意義的英文句子雜湊衝突個數。資料3為資料1的雜湊值與1000003(大素數)求模後儲存到線性表中衝突的個數。資料4為資料1的雜湊值與10000019(更大素數)求模後儲存到線性表中衝突的個數。
- 經過比較,得出以上平均得分。平均數為平方平均數。可以發現,BKDRHash無論是在實際效果還是編碼實現中,效果都是最突出的。APHash也是較為優秀的演算法。DJBHash,JSHash,RSHash與SDBMHash各有千秋。PJWHash與ELFHash效果最差,但得分相似,其演算法本質是相似的。
- 在資訊修競賽中,要本著易於編碼除錯的原則,個人認為BKDRHash是最適合記憶和使用的。
- BYVoid原創,歡迎建議、交流、批評和指正。
- 附:各種雜湊函式的C語言程式程式碼
SDBM Hash
- SDBM Hash
unsigned int SDBMHash(char *str)
{
unsigned int hash = 0;
while (*str)
{
// equivalent to: hash = 65599*hash + (*str++);
hash = (*str++) + (hash << 6) + (hash << 16) - hash;
}
return (hash & 0x7FFFFFFF);
}
RS Hash Function
- RS Hash Function
// RS Hash Function
unsigned int RSHash(char *str)
{
unsigned int b = 378551;
unsigned int a = 63689;
unsigned int hash = 0;
while (*str)
{
hash = hash * a + (*str++);
a *= b;
}
return (hash & 0x7FFFFFFF);
}
JS Hash Function
- JS Hash Function
// JS Hash Function
unsigned int JSHash(char *str)
{
unsigned int hash = 1315423911;
while (*str)
{
hash ^= ((hash << 5) + (*str++) + (hash >> 2));
}
return (hash & 0x7FFFFFFF);
}
P. J. Weinberger Hash Function
- P. J. Weinberger Hash Function
// P. J. Weinberger Hash Function
unsigned int PJWHash(char *str)
{
unsigned int BitsInUnignedInt = (unsigned int)(sizeof(unsigned int) * 8);
unsigned int ThreeQuarters = (unsigned int)((BitsInUnignedInt * 3) / 4);
unsigned int OneEighth = (unsigned int)(BitsInUnignedInt / 8);
unsigned int HighBits = (unsigned int)(0xFFFFFFFF) << (BitsInUnignedInt - OneEighth);
unsigned int hash = 0;
unsigned int test = 0;
while (*str)
{
hash = (hash << OneEighth) + (*str++);
if ((test = hash & HighBits) != 0)
{
hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));
}
}
return (hash & 0x7FFFFFFF);
}
ELF Hash Function
- ELF Hash Function
// ELF Hash Function
unsigned int ELFHash(char *str)
{
unsigned int hash = 0;
unsigned int x = 0;
while (*str)
{
hash = (hash << 4) + (*str++);
if ((x = hash & 0xF0000000L) != 0)
{
hash ^= (x >> 24);
hash &= ~x;
}
}
return (hash & 0x7FFFFFFF);
}
BKDR Hash Function
- BKDR Hash Function
// BKDR Hash Function
unsigned int BKDRHash(char *str)
{
unsigned int seed = 131; // 31 131 1313 13131 131313 etc..
unsigned int hash = 0;
while (*str)
{
hash = hash * seed + (*str++);
}
return (hash & 0x7FFFFFFF);
}
// DJB Hash Function
unsigned int DJBHash(char *str)
{
unsigned int hash = 5381;
while (*str)
{
hash += (hash << 5) + (*str++);
}
return (hash & 0x7FFFFFFF);
}
AP Hash Function
- AP Hash Function
// AP Hash Function
unsigned int APHash(char *str)
{
unsigned int hash = 0;
int i;
for (i=0; *str; i++)
{
if ((i & 1) == 0)
{
hash ^= ((hash << 7) ^ (*str++) ^ (hash >> 3));
}
else
{
hash ^= (~((hash << 11) ^ (*str++) ^ (hash >> 5)));
}
}
return (hash & 0x7FFFFFFF);
}
ELFHash詳細分析
- ELFHash
// ELF Hash Function
unsigned int ELFHash(char *str)
{
unsigned int hash = 0;
unsigned int x = 0;
while (*str)
{
hash = (hash << 4) + (*str++);//hash左移4位,當前字元ASCII存入hash
if ((x = hash & 0xF0000000L) != 0)
{//如果最高的四位不為0,則說明字元多餘7個,如果不處理,再加第九個字元時,第一個字元會被移出,因此要有如下處理。
//該處理,如果對於字串(a-z 或者A-Z)就會僅僅影響5-8位,否則會影響5-31位,因為C語言使用的算數移位
hash ^= (x >> 24);
//清空28-31位。上面其實就是把即將刪除的高四位和低5-8位運算一次,和 hash = (hash << 4) + (*str++); 效果相同
hash &= ~x;
}
}
//返回一個符號位為0的數,即丟棄最高位,以免函式外產生影響。(我們可以考慮,如果只有字元,符號位不可能為負)
return (hash & 0×7FFFFFFF);
}
- 解釋
ELFhash函式在UNIX系統V 版本4中的“可執行連結格式”( Executable and Linking Format,即ELF )中會用到,ELF檔案格式用於儲存可執行檔案與目標檔案。ELFhash函式是對字串的雜湊。它對於長字串和短字串都很有效,字串中每個字元都有同樣的作用,它巧妙地對字元的ASCII編碼值進行計算,ELFhash函式對於能夠比較均勻地把字串分佈在散列表中。
說明:unsigned int hash = 0; unsigned int x = 0;
定義無符號整數,在進行位運算時無需考慮符號位的影響,左移和右移均補位0
int 為32位 ,即 00000000 00000000 00000000 00000000
hash = (hash << 4) + (*str++);//hash左移4位,當前字元ASCII存入hash
例,如果hash為2時,(hash << 4)操作後,放大16(2的4次方)倍;然後加上(*str++),(*str++)為8位的字元,所以對4-7為有影響,其後四位添到hash左移空出的四位。
if ((x = hash & 0xF0000000L) != 0)
0xF0000000L表示28-31位這4位是1,後28為均為0的長整型(L),該操作的結果為x儲存hash 的高4位
& 按位與 如果兩個相應的二進位制位都為1,則該位的結果值為1,否則為0
hash ^= (x >> 24);
首先x的拷貝進行右移23位的操作,然後與hash進行異或操作。
右移後X的值為 00000000 00000000 00000000 ****0000 ;****為hash的高四位
^ 按位異或 若參加運算的兩個二進位制位值相同則為0,否則為1
hash &= ~x;
有 if ((x = hash & 0xF0000000L) != 0),x儲存著hash的高四位,雖然進行右移操作,但不會改變x的值,而是對副本進行操作。經過hash &= ~x; hash的高四位被清空。
//返回一個符號位為0的數,即丟棄最高位,以免函式外產生影響。(我們可以考慮,如果只有字元,符號位不可能為負)
return (hash & 0×7FFFFFFF);