Hash Compared & ELFHash 詳解

阿新 • • 發佈：2018-12-23

部分轉載自here

常用HASH演算法程式碼 & 比較

常用的字串Hash函式還有ELFHash，APHash等等，都是十分簡單有效的方法。這些函式使用位運算使得每一個字元都對最後的函式值產生影響。另外還有以MD5和SHA1為代表的雜湊函式，這些函式幾乎不可能找到碰撞。

常用字串雜湊函式有BKDRHash，APHash，DJBHash，JSHash，RSHash，SDBMHash，PJWHash，ELFHash等等。對於以上幾種雜湊函式，我對其進行了一個小小的評測。

Hash函式  資料1 資料2 資料3    資料4  資料1 
得分   資料2得分   資料3得分   資料4得分   平均分
BKDRHash    2   0     4774    481       96.55   100         90.95       82.05       92.64
APHash      2   3     4754    493       96.55   88.46       100         51.28       86.28
DJBHash     2   2     4975    474       96.55   92.31       0           100         83.43
JSHash      1 
   4     4761    506       100     84.62       96.83       17.95       81.94
RSHash      1   0     4861    505       100     100         51.58       20.51       75.96
SDBMHash    3   2     4849    504       93.1    92.31       57.01       23.08       72.41
PJWHash     30  26    4878    513       0       0           43.89 
       0           21.95
ELFHash     30  26    4878    513       0       0           43.89       0           21.95

其中資料1為100000個字母和數字組成的隨機串雜湊衝突個數。資料2為100000個有意義的英文句子雜湊衝突個數。資料3為資料1的雜湊值與1000003(大素數)求模後儲存到線性表中衝突的個數。資料4為資料1的雜湊值與10000019(更大素數)求模後儲存到線性表中衝突的個數。

經過比較，得出以上平均得分。平均數為平方平均數。可以發現，BKDRHash無論是在實際效果還是編碼實現中，效果都是最突出的。APHash也是較為優秀的演算法。DJBHash,JSHash,RSHash與SDBMHash各有千秋。PJWHash與ELFHash效果最差，但得分相似，其演算法本質是相似的。

在資訊修競賽中，要本著易於編碼除錯的原則，個人認為BKDRHash是最適合記憶和使用的。

BYVoid原創，歡迎建議、交流、批評和指正。

附：各種雜湊函式的C語言程式程式碼

SDBM Hash

SDBM Hash

unsigned int SDBMHash(char *str)
{
    unsigned int hash = 0;
    while (*str)
    {
        // equivalent to: hash = 65599*hash + (*str++);
        hash = (*str++) + (hash << 6) + (hash << 16) - hash;
    }
    return (hash & 0x7FFFFFFF);
}

RS Hash Function

RS Hash Function

// RS Hash Function
unsigned int RSHash(char *str)
{
    unsigned int b = 378551;
    unsigned int a = 63689;
    unsigned int hash = 0;
    while (*str)
    {
        hash = hash * a + (*str++);
        a *= b;
    }
    return (hash & 0x7FFFFFFF);
}

JS Hash Function

JS Hash Function

// JS Hash Function
unsigned int JSHash(char *str)
{
    unsigned int hash = 1315423911;
    while (*str)
    {
        hash ^= ((hash << 5) + (*str++) + (hash >> 2));
    }
    return (hash & 0x7FFFFFFF);
}

P. J. Weinberger Hash Function

P. J. Weinberger Hash Function

// P. J. Weinberger Hash Function
unsigned int PJWHash(char *str)
{
    unsigned int BitsInUnignedInt = (unsigned int)(sizeof(unsigned int) * 8);
    unsigned int ThreeQuarters    = (unsigned int)((BitsInUnignedInt  * 3) / 4);
    unsigned int OneEighth        = (unsigned int)(BitsInUnignedInt / 8);
    unsigned int HighBits         = (unsigned int)(0xFFFFFFFF) << (BitsInUnignedInt - OneEighth);
    unsigned int hash             = 0;
    unsigned int test             = 0;
    while (*str)
    {
        hash = (hash << OneEighth) + (*str++);
        if ((test = hash & HighBits) != 0)
        {
            hash = ((hash ^ (test >> ThreeQuarters)) & (~HighBits));
        }
    }
    return (hash & 0x7FFFFFFF);
}

ELF Hash Function

ELF Hash Function

// ELF Hash Function
unsigned int ELFHash(char *str)
{
    unsigned int hash = 0;
    unsigned int x    = 0;
    while (*str)
    {
        hash = (hash << 4) + (*str++);
        if ((x = hash & 0xF0000000L) != 0)
        {
            hash ^= (x >> 24);
            hash &= ~x;
        }
    }
    return (hash & 0x7FFFFFFF);
}

BKDR Hash Function

BKDR Hash Function

// BKDR Hash Function
unsigned int BKDRHash(char *str)
{
    unsigned int seed = 131; // 31 131 1313 13131 131313 etc..
    unsigned int hash = 0;
    while (*str)
    {
        hash = hash * seed + (*str++);
    }
    return (hash & 0x7FFFFFFF);
}
// DJB Hash Function
unsigned int DJBHash(char *str)
{
    unsigned int hash = 5381;
    while (*str)
    {
        hash += (hash << 5) + (*str++);
    }
    return (hash & 0x7FFFFFFF);
}

AP Hash Function

AP Hash Function

// AP Hash Function
unsigned int APHash(char *str)
{
    unsigned int hash = 0;
    int i;
    for (i=0; *str; i++)
    {
        if ((i & 1) == 0)
        {
            hash ^= ((hash << 7) ^ (*str++) ^ (hash >> 3));
        }
        else
        {
            hash ^= (~((hash << 11) ^ (*str++) ^ (hash >> 5)));
        }
    }
    return (hash & 0x7FFFFFFF);
}

ELFHash詳細分析

ELFHash

// ELF Hash Function
unsigned int ELFHash(char *str)
{
    unsigned int hash = 0;
    unsigned int x = 0;
    while (*str)
    {
        hash = (hash << 4) + (*str++);//hash左移4位，當前字元ASCII存入hash
        if ((x = hash & 0xF0000000L) != 0)
        {//如果最高的四位不為0，則說明字元多餘7個，如果不處理，再加第九個字元時，第一個字元會被移出，因此要有如下處理。
            //該處理，如果對於字串(a-z 或者A-Z)就會僅僅影響5-8位，否則會影響5-31位，因為C語言使用的算數移位
            hash ^= (x >> 24);
            //清空28-31位。上面其實就是把即將刪除的高四位和低5-8位運算一次，和 hash = (hash << 4) + (*str++); 效果相同
            hash &= ~x;
        }
    }
    //返回一個符號位為0的數，即丟棄最高位，以免函式外產生影響。(我們可以考慮，如果只有字元，符號位不可能為負)
    return (hash & 0×7FFFFFFF);
}

解釋

ELFhash函式在UNIX系統V 版本4中的“可執行連結格式”( Executable and Linking Format，即ELF )中會用到，ELF檔案格式用於儲存可執行檔案與目標檔案。ELFhash函式是對字串的雜湊。它對於長字串和短字串都很有效，字串中每個字元都有同樣的作用，它巧妙地對字元的ASCII編碼值進行計算，ELFhash函式對於能夠比較均勻地把字串分佈在散列表中。
說明：unsigned int hash = 0; unsigned int x = 0;
定義無符號整數，在進行位運算時無需考慮符號位的影響，左移和右移均補位0
int 為32位 ，即  00000000  00000000   00000000   00000000
hash = (hash << 4) + (*str++);//hash左移4位，當前字元ASCII存入hash
例，如果hash為2時，（hash << 4）操作後，放大16（2的4次方）倍；然後加上(*str++)，(*str++)為8位的字元，所以對4-7為有影響，其後四位添到hash左移空出的四位。
if ((x = hash & 0xF0000000L) != 0)
0xF0000000L表示28-31位這4位是1，後28為均為0的長整型（L），該操作的結果為x儲存hash 的高4位
& 按位與 如果兩個相應的二進位制位都為1，則該位的結果值為1，否則為0
hash ^= (x >> 24);
首先x的拷貝進行右移23位的操作，然後與hash進行異或操作。
右移後X的值為 00000000 00000000 00000000  ****0000  ;****為hash的高四位
^ 按位異或 若參加運算的兩個二進位制位值相同則為0，否則為1
hash &= ~x;
有 if ((x = hash & 0xF0000000L) != 0)，x儲存著hash的高四位，雖然進行右移操作，但不會改變x的值，而是對副本進行操作。經過hash &= ~x;  hash的高四位被清空。
//返回一個符號位為0的數，即丟棄最高位，以免函式外產生影響。(我們可以考慮，如果只有字元，符號位不可能為負)
return (hash & 0×7FFFFFFF);

Hash Compared & ELFHash 詳解

部分轉載自here 常用HASH演算法程式碼 & 比較常用的字串Hash函式還有ELFHash，APHash等等，都是十分簡單有效的方法。這些函式使用

字符串哈希算法（以ELFHash詳解）

不為查詢查看 i++ 結果 amp 直接 ble 散列函數更多字符串哈希算法請參考：http://blog.csdn.net/AlburtHoffman/article/details/19641123 先來了解一下何為哈希：哈希表是根據設定的哈希函數H(key)和

hash演算法原理詳解

一.概念雜湊表就是一種以鍵-值(key-indexed) 儲存資料的結構，我們只要輸入待查詢的值即key，即可查詢到其對應的值。雜湊的思路很簡單，如果所有的鍵都是整數，那麼就可以使用一個簡單的無序陣列來實現：將鍵作為索引，值即為其對應的值，這樣就可以快速訪問任意

ELFhash 字串雜湊演算法（以ELFHash詳解）

字串雜湊演算法（以ELFHash詳解）更多字串雜湊演算法請參考：http://blog.csdn.net/AlburtHoffman/article/details/19641123 先來了解一下何為雜湊：雜湊表是根據設定的雜湊函式H(key)和處

詳解webpack中的hash、chunkhash、contenthash區別

con tro 們的 tex trac extra lena fig files hash、chunkhash、contenthash hash一般是結合CDN緩存來使用，通過webpack構建之後，生成對應文件名自動帶上對應的MD5值。如果文件內容改變的話，那麽對應文件

hash詳解

ring 說明真的 scanf 相同 orange memset ems 小寫字母首先介紹一下hash？事實上是一種叫做蛤絲的病毒 hash的做法：首先設一個進制數base，並設一個模數mod 而哈希其實就是把一個數轉化為一個值，這個值是base進制的，儲存在哈希表

BTree和B+Tree和Hash索引詳解

b-tree 關系查詢優化刪除節點 eight node 常用技術分享遍歷二叉查找樹二叉樹具有以下性質：左子樹的鍵值小於根的鍵值，右子樹的鍵值大於根的鍵值。如下圖所示就是一棵二叉查找樹，對該二叉樹的節點進行查找發現深度為1的節點的查找次數為1，深度為2的查

Shodan的http.favicon.hash語法詳解

簡單 tar 地址字段就是 mpi 舉例數值 sts 　　在Shodan搜索中有一個關於網站icon圖標的搜索語法，http.favicon.hash，我們可以使用這個語法來搜索出使用了同一icon圖標的網站，不知道怎麽用的朋友請參考我上一篇文章。　　通過上一篇文章

Java 資料結構5：Hash詳解

雜湊表雜湊表也稱散列表（Hash），Hash表是基於健值對（key - value）直接進行訪問的資料結構。但是他的底層是基於陣列的，通過特定的雜湊函式把key對映到陣列的某個下標來加快查詢速度，對於雜湊表來說，查詢元素的複雜度是O(1) 我們來看一下Hash

P3370 【模板】字串雜湊（Hash詳解）

題目連結題意：給定N個字串（第i個字串長度為Mi，字串內包含數字、大小寫字母，大小寫敏感），請求出N個字串中共有多少個不同的字串。單hash——模數19260817（80分） #include<iostream> #include<al

POJ3974 Palindrome迴文子串 hash+二分答案做法詳解

Andy the smart computer science student was attending an algorithms class when the professor asked the students a simple question, "Can you propose an effi

多表連線的三種方式詳解 hash join、merge join、 nested loop

在多表聯合查詢的時候，如果我們檢視它的執行計劃，就會發現裡面有多表之間的連線方式。多表之間的連線有三種方式：Nested Loops，Hash Join 和 Sort Merge Join.具體適用哪種型別的連線取決於當前的優化器模式（ALL_ROWS 和 RULE）取決於表大小取決於連線列

深入理解Oracle表(5)：三大表連線方式詳解之Hash Join的定義，原理，演算法，成本，模式和點陣圖

Hash Join只能用於相等連線，且只能在CBO優化器模式下。相對於nested loop join，hash join更適合處理大型結果集 Hash Join的執行計劃第1個是hash表(build table)，第2個探查表(probe table)，

Redis 之hash集合結構及命令詳解

1、hset key field value 作用: 把key中 filed域的值設為value 注:如果沒有field域,直接新增,如果有,則覆蓋原field域的值 2、hmset key field1 value1 [field2 value2 field3 value3 ..

location.hash詳解

一個顯著變化，就是URL加入了"#!"符號。比如，改版前的使用者主頁網址為　　http://twitter.com/username 改版後，就變成了　　http://twitter.com/#!/username 在我印象中，這是主流網站第一次將"#"大規模用於直接與使用者互動的關鍵URL中。

多表連線的三種方式詳解 HASH JOIN MERGE JOIN NESTED LOOP

在多表聯合查詢的時候，如果我們檢視它的執行計劃，就會發現裡面有多表之間的連線方式。之前打算在sqlplus中用執行計劃的，但是格式看起來有點亂，就用Toad 做了3個截圖。

InnoDB的關鍵特性-插入快取,兩次寫,自適應hash索引詳解

InnoDB儲存引擎的關鍵特性包括插入緩衝、兩次寫（double write）、自適應雜湊索引（adaptive hash index）。這些特性為InnoDB儲存引擎帶來了更好的效能和更高的可靠性。插入緩衝插入緩衝是InnoDB儲存引擎關鍵特性中最令人激動的。不過，這個名字

多表連線的三種方式詳解 HASH JOIN MERGE JOIN NESTED LOOP【3】

SQL server 內部實現了三種類型的內連線運算，大多數人從來沒有聽說過這些連線型別，因為它們不是邏輯連線也很少被用於程式碼中。那麼它們什麼時候會被用到呢？答案是要依情況而定。這就意味著要依賴於記錄集和索引。查詢優化器總是智慧的選擇最優的物理連線型別。我們知道SQL優

window.location.hash詳解

一、#的涵義代表網頁中的一個位置。其右面的字元，就是該位置的識別符號。比如，就代表網頁index.html的print位置。瀏覽器讀取這個URL後，會自動將print位置滾動至可視區域。為網頁位置指定識別符號，有兩個方法。一是使用錨點，比

hashmap 中hash函式h & (length-1)詳解

Hashmap是一種非常常用的、應用廣泛的資料型別，最近研究到相關的內容，就正好複習一下。網上關於hashmap的文章很多，但到底是自己學習的總結，就發出來跟大家一起分享，一起討論。 1、hashmap的資料結構要知道hashmap是什麼，首先要搞清楚它的資料結構，在

Hash Compared & ELFHash 詳解

常用HASH演算法 程式碼 & 比較

SDBM Hash

RS Hash Function

JS Hash Function

P. J. Weinberger Hash Function

ELF Hash Function

BKDR Hash Function

AP Hash Function

ELFHash詳細分析

相關推薦

常用HASH演算法程式碼 & 比較