1. 程式人生 > >Hash Compared & ELFHash 詳解

Hash Compared & ELFHash 詳解

  • 部分轉載自here

常用HASH演算法 程式碼 & 比較

  • 常用的字串Hash函式還有ELFHash,APHash等等,都是十分簡單有效的方法。這些函式使用位運算使得每一個字元都對最後的函式值產生影響。另外還有以MD5和SHA1為代表的雜湊函式,這些函式幾乎不可能找到碰撞。
  • 常用字串雜湊函式有BKDRHash,APHash,DJBHash,JSHash,RSHash,SDBMHash,PJWHash,ELFHash等等。對於以上幾種雜湊函式,我對其進行了一個小小的評測。
Hash函式  資料1 資料2 資料3    資料4  資料1
得分 資料2得分 資料3得分 資料4得分 平均分 BKDRHash 2 0 4774 481 96.55 100 90.95 82.05 92.64 APHash 2 3 4754 493 96.55 88.46 100 51.28 86.28 DJBHash 2 2 4975 474 96.55 92.31 0 100 83.43 JSHash 1
4 4761 506 100 84.62 96.83 17.95 81.94 RSHash 1 0 4861 505 100 100 51.58 20.51 75.96 SDBMHash 3 2 4849 504 93.1 92.31 57.01 23.08 72.41 PJWHash 30 26 4878 513 0 0 43.89
0 21.95 ELFHash 30 26 4878 513 0 0 43.89 0 21.95
  • 其中資料1為100000個字母和數字組成的隨機串雜湊衝突個數。資料2為100000個有意義的英文句子雜湊衝突個數。資料3為資料1的雜湊值與1000003(大素數)求模後儲存到線性表中衝突的個數。資料4為資料1的雜湊值與10000019(更大素數)求模後儲存到線性表中衝突的個數。
  • 經過比較,得出以上平均得分。平均數為平方平均數。可以發現,BKDRHash無論是在實際效果還是編碼實現中,效果都是最突出的。APHash也是較為優秀的演算法。DJBHash,JSHash,RSHash與SDBMHash各有千秋。PJWHash與ELFHash效果最差,但得分相似,其演算法本質是相似的。
  • 在資訊修競賽中,要本著易於編碼除錯的原則,個人認為BKDRHash是最適合記憶和使用的。
  • BYVoid原創,歡迎建議、交流、批評和指正。
  • 附:各種雜湊函式的C語言程式程式碼

SDBM Hash

  • SDBM Hash
unsigned int SDBMHash(char *str)
{
    unsigned int hash = 0;
    while (*str)
    {
        // equivalent to: hash = 65599*hash + (*str++);
        hash = (*str++) + (hash << 6) + (hash << 16) - hash;
    }
    return (hash & 0x7FFFFFFF);
}

RS Hash Function

  • RS Hash Function
// RS Hash Function
unsigned int RSHash(char *str)
{
    unsigned int b = 378551;
    unsigned int a = 63689;
    unsigned int hash = 0;
    while (*str)
    {
        hash = hash * a + (*str++);
        a *= b;
    }
    return (hash & 0x7FFFFFFF);
}

JS Hash Function

  • JS Hash Function
// JS Hash Function
unsigned int JSHash(char *str)
{
    unsigned int hash = 1315423911;
    while (*str)
    {
        hash ^= ((hash << 5) + (*str++) + (hash >> 2));
    }
    return (hash & 0x7FFFFFFF);
}

P. J. Weinberger Hash Function

  • P. J. Weinberger Hash Function
// P. J. Weinberger Hash Function
unsigned int PJWHash(char *str)
{
    unsigned int BitsInUnignedInt = (unsigned int)(sizeof(unsigned int) * 8);
    unsigned int ThreeQuarters    = (unsigned int)((BitsInUnignedInt  * 3) / 4);
    unsigned int OneEighth        = (unsigned int)(BitsInUnignedInt / 8);
    unsigned int HighBits         = (unsigned int)(0xFFFFFFFF) << (BitsInUnignedInt - OneEighth);
    unsigned int hash             = 0;
    unsigned int test             = 0;
    while (*str)
    {
        hash = (hash << OneEighth) + (*str++);
        if ((test = hash & HighBits) != 0)
        {
            hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));
        }
    }
    return (hash & 0x7FFFFFFF);
}

ELF Hash Function

  • ELF Hash Function
// ELF Hash Function
unsigned int ELFHash(char *str)
{
    unsigned int hash = 0;
    unsigned int x    = 0;
    while (*str)
    {
        hash = (hash << 4) + (*str++);
        if ((x = hash & 0xF0000000L) != 0)
        {
            hash ^= (x >> 24);
            hash &= ~x;
        }
    }
    return (hash & 0x7FFFFFFF);
}

BKDR Hash Function

  • BKDR Hash Function
// BKDR Hash Function
unsigned int BKDRHash(char *str)
{
    unsigned int seed = 131; // 31 131 1313 13131 131313 etc..
    unsigned int hash = 0;
    while (*str)
    {
        hash = hash * seed + (*str++);
    }
    return (hash & 0x7FFFFFFF);
}
// DJB Hash Function
unsigned int DJBHash(char *str)
{
    unsigned int hash = 5381;
    while (*str)
    {
        hash += (hash << 5) + (*str++);
    }
    return (hash & 0x7FFFFFFF);
}

AP Hash Function

  • AP Hash Function
// AP Hash Function
unsigned int APHash(char *str)
{
    unsigned int hash = 0;
    int i;
    for (i=0; *str; i++)
    {
        if ((i & 1) == 0)
        {
            hash ^= ((hash << 7) ^ (*str++) ^ (hash >> 3));
        }
        else
        {
            hash ^= (~((hash << 11) ^ (*str++) ^ (hash >> 5)));
        }
    }
    return (hash & 0x7FFFFFFF);
}

ELFHash詳細分析

  • ELFHash
// ELF Hash Function
unsigned int ELFHash(char *str)
{
    unsigned int hash = 0;
    unsigned int x = 0;
    while (*str)
    {
        hash = (hash << 4) + (*str++);//hash左移4位,當前字元ASCII存入hash
        if ((x = hash & 0xF0000000L) != 0)
        {//如果最高的四位不為0,則說明字元多餘7個,如果不處理,再加第九個字元時,第一個字元會被移出,因此要有如下處理。
            //該處理,如果對於字串(a-z 或者A-Z)就會僅僅影響5-8位,否則會影響5-31位,因為C語言使用的算數移位
            hash ^= (x >> 24);
            //清空28-31位。上面其實就是把即將刪除的高四位和低5-8位運算一次,和 hash = (hash << 4) + (*str++); 效果相同
            hash &= ~x;
        }
    }
    //返回一個符號位為0的數,即丟棄最高位,以免函式外產生影響。(我們可以考慮,如果只有字元,符號位不可能為負)
    return (hash & 0×7FFFFFFF);
}
  • 解釋
ELFhash函式在UNIX系統V 版本4中的“可執行連結格式”( Executable and Linking Format,即ELF )中會用到,ELF檔案格式用於儲存可執行檔案與目標檔案。ELFhash函式是對字串的雜湊。它對於長字串和短字串都很有效,字串中每個字元都有同樣的作用,它巧妙地對字元的ASCII編碼值進行計算,ELFhash函式對於能夠比較均勻地把字串分佈在散列表中。
說明:unsigned int hash = 0; unsigned int x = 0;
定義無符號整數,在進行位運算時無需考慮符號位的影響,左移和右移均補位0
int 為32位 ,即  00000000  00000000   00000000   00000000
hash = (hash << 4) + (*str++);//hash左移4位,當前字元ASCII存入hash
例,如果hash2時,(hash << 4)操作後,放大1624次方)倍;然後加上(*str++),(*str++)為8位的字元,所以對4-7為有影響,其後四位添到hash左移空出的四位。
if ((x = hash & 0xF0000000L) != 0)
0xF0000000L表示28-31位這4位是1,後28為均為0的長整型(L),該操作的結果為x儲存hash 的高4位
& 按位與 如果兩個相應的二進位制位都為1,則該位的結果值為1,否則為0
hash ^= (x >> 24);
首先x的拷貝進行右移23位的操作,然後與hash進行異或操作。
右移後X的值為 00000000 00000000 00000000  ****0000  ;****為hash的高四位
^ 按位異或 若參加運算的兩個二進位制位值相同則為0,否則為1
hash &= ~x;
有 if ((x = hash & 0xF0000000L) != 0),x儲存著hash的高四位,雖然進行右移操作,但不會改變x的值,而是對副本進行操作。經過hash &= ~x;  hash的高四位被清空。
//返回一個符號位為0的數,即丟棄最高位,以免函式外產生影響。(我們可以考慮,如果只有字元,符號位不可能為負)
return (hash & 0×7FFFFFFF);