hash詳解

阿新 • • 發佈：2018-04-17

ring 說明真的 scanf 相同 orange memset ems 小寫字母

首先介紹一下hash？

事實上是一種叫做蛤絲的病毒

hash的做法：

首先設一個進制數base，並設一個模數mod

而哈希其實就是把一個數轉化為一個值，這個值是base進制的，儲存在哈希表中，註意一下在存入的時候取模一下即可

比如說現在有一個字符串orzc

枚舉這個字符串的每一位，與base相乘得到ans，然後mod一下，就得到orzc的哈希值

但是哈希有一個很大的弊端：

哈希沖突

什麽是哈希沖突呢？

就比如說orzc的哈希值是233，而orzhjw的哈希值也是233

那麽我們在查詢的時候代碼會認為這兩個字符串是相同的，但顯然這兩個字符串是不同的

減少哈希沖突的方法很多

自然溢出法，雙哈希之類的

看一道例題理解一下

洛谷P3370 【模板】字符串哈希

題目描述

如題，給定N個字符串（第i個字符串長度為Mi，字符串內包含數字、大小寫字母，大小寫敏感），請求出N個字符串中共有多少個不同的字符串。

友情提醒：如果真的想好好練習哈希的話，請自覺，否則請右轉PJ試煉場:)

輸入輸出格式

輸入格式：

第一行包含一個整數N，為字符串的個數。

接下來N行每行包含一個字符串，為所提供的字符串。

輸出格式：

輸出包含一行，包含一個整數，為不同的字符串個數。

輸入輸出樣例

輸入樣例#1：復制

5
abc
aaaa
abc
abcc
12345

輸出樣例#1：復制

說明

時空限制：1000ms,128M

數據規模：

對於30%的數據：N<=10，Mi≈6，Mmax<=15;

對於70%的數據：N<=1000，Mi≈100，Mmax<=150

對於100%的數據：N<=10000，Mi≈1000，Mmax<=1500

樣例說明：

樣例中第一個字符串(abc)和第三個字符串(abc)是一樣的，所以所提供字符串的集合為{aaaa,abc,abcc,12345}，故共計4個不同的字符串。

Tip：感興趣的話，你們可以先看一看以下三題：

BZOJ3097：http://www.lydsy.com/JudgeOnline/problem.php?id=3097

BZOJ3098：http://www.lydsy.com/JudgeOnline/problem.php?id=3098

BZOJ3099：http://www.lydsy.com/JudgeOnline/problem.php?id=3099

如果你仔細研究過了（或者至少仔細看過AC人數的話），我想你一定會明白字符串哈希的正確姿勢的^_^

事實上如果理解了剛剛講的hash的原理的話，這道題就很水了，因為本來就是模板題

用一段hash的代碼再來鞏固一下剛才的知識

#define base 233
#define inf 1<<30
ull mod=inf;
//定義一個大數(最好是質數)作為模數，這裏用的是1<<30
//定義一個base進制，這裏是233
il ull hash(char s[]){
    ll ans=0,len=strlen(s);
    for(ll i=0;i<len;i++){
        ans=(base*ans+(ull)s[i])%mod;
    }
    return ans;
    //枚舉該字符串的每一位，與base相乘，轉化為base進制，加(ull)是為了防止爆棧搞出一個負數，(ull)是無符號的，但其實加了一個ull是可以不用mod的，加個mod更保險
    //然而加了mod會很玄學，莫名比不加mod慢了300多ms
}

因為懶就沒有去找一個大質數來當mod，用了1<<30代替，但是最好還是找一個大質數當mod（搜索一下生日悖論？大概就會明白原因了）

最後貼一下剛剛的例題的兩種解法：

解法1：單hash/自然溢出法

這裏就當一種解法來說吧

因為代碼差異不大

這道題的話單hash mod開大質數是可以過的，但是在大多數難一些的題目裏面是會被卡掉的#include <cstdio>

#include <cstring>
#include <algorithm>
#define ll int
#define inf 1<<30
#define mt(x,y) memset(x,y,sizeof(x))
#define il inline 
#define ull unsigned long long
il ll max(ll x,ll y){return x>y?x:y;}
il ll min(ll x,ll y){return x<y?x:y;}
il ll abs(ll x){return x>0?x:-x;}
il ll swap(ll x,ll y){ll t=x;x=y;y=t;}
il void read(ll &x){
    x=0;ll f=1;char c=getchar();
    while(c<‘0‘||c>‘9‘){if(c==‘-‘)f=-f;c=getchar();}
    while(c>=‘0‘&&c<=‘9‘){x=x*10+c-‘0‘;c=getchar();}
    x*=f;
}
using namespace std;
#define N 10001
#define base 233
ull mod=212370440130137957ll;
ll f[N],n;
char a[N];
//ull hash(char s[]){ ll ans=0,len=strlen(s); for(ll i=0;i<len;i++){ ans=((base*ans+(ull)s[i])+mod)%mod; } return ans; }
//這個是單hash+大質數mod，也是可以過的，但是會比較慢

ull hash(char s[]){//自然溢出
    ull ans=0,len=strlen(s);
    for(ll i=0;i<len;i++){
        ans=base*ans+(ull)s[i];
        //這裏不使用mod讓它自然溢出，定義為ull的數在超過2^32的時候會自然溢出
        //如果把這個換成上面的hash就會400ms+
        //所以說自然溢出大法好
    }
    return ans;
}
int main(){
    read(n);
    for(ll i=1;i<=n;i++){
        scanf("%s",a);
        f[i]=hash(a);
    }
    sort(f+1,f+n+1);ll ans=1;
    for(ll i=1;i<n;i++){
        if(f[i]!=f[i+1])ans++;
    }
    printf("%d\n",ans);
    return 0;
}

解法2：雙hash

其實就是用兩個不同的mod來算hash，哈希沖突的概率是降低了很多，不過常數大，容易被卡，這道題要700ms+

本人還是更推薦自然溢出法

#include <cstdio>
#include <cstring>
#include <algorithm>
#define ll int
#define inf 1<<30
#define mt(x,y) memset(x,y,sizeof(x))
#define il inline 
#define ull unsigned long long
il ll max(ll x,ll y){return x>y?x:y;}
il ll min(ll x,ll y){return x<y?x:y;}
il ll abs(ll x){return x>0?x:-x;}
il ll swap(ll x,ll y){ll t=x;x=y;y=t;}
il void read(ll &x){
    x=0;ll f=1;char c=getchar();
    while(c<‘0‘||c>‘9‘){if(c==‘-‘)f=-f;c=getchar();}
    while(c>=‘0‘&&c<=‘9‘){x=x*10+c-‘0‘;c=getchar();}
    x*=f;
}
using namespace std;
#define N 10001
#define base 233
ull mod1=212370440130137957ll;
ull mod2=inf;
ll n;
char a[N];
struct node{ll x,y;}f[N];
il ull hash1(char s[]){
    ll ans=0,len=strlen(s);
    for(ll i=0;i<len;i++){
        ans=(base*ans+(ull)s[i])%mod1;
    }
    return ans;
}
il ull hash2(char s[]){
    ll ans=0,len=strlen(s);
    for(ll i=0;i<len;i++){
        ans=(base*ans+(ull)s[i])%mod2;
    }
    return ans;
}
il bool cmp1(node a,node b){return a.x<b.x;}
il bool cmp2(node a,node b){return a.y<b.y;}
int main(){
    read(n);
    for(ll i=1;i<=n;i++){
        scanf("%s",a);
        f[i].x=hash1(a);
        f[i].y=hash2(a);
    }
    sort(f+1,f+n+1,cmp1);sort(f+1,f+n+1,cmp2);
    ll ans=1;
    for(ll i=1;i<n;i++){
        if(f[i].x!=f[i+1].x||f[i].y!=f[i+1].y)ans++;
    }
    printf("%d\n",ans);
    return 0;
}

這道題也是可以打字典樹的，rank1的dalao就是用的字典樹，不過就不介紹了，其他的題解裏面也有，況且既然是哈希模板，就好好打哈希咯233

我是不會承認因為我懶而且不是很懂字典樹才不放字典樹做法的

hash詳解

ring 說明真的 scanf 相同 orange memset ems 小寫字母首先介紹一下hash？事實上是一種叫做蛤絲的病毒 hash的做法：首先設一個進制數base，並設一個模數mod 而哈希其實就是把一個數轉化為一個值，這個值是base進制的，儲存在哈希表

Java 資料結構5：Hash詳解

雜湊表雜湊表也稱散列表（Hash），Hash表是基於健值對（key - value）直接進行訪問的資料結構。但是他的底層是基於陣列的，通過特定的雜湊函式把key對映到陣列的某個下標來加快查詢速度，對於雜湊表來說，查詢元素的複雜度是O(1) 我們來看一下Hash

P3370 【模板】字串雜湊（Hash詳解）

題目連結題意：給定N個字串（第i個字串長度為Mi，字串內包含數字、大小寫字母，大小寫敏感），請求出N個字串中共有多少個不同的字串。單hash——模數19260817（80分） #include<iostream> #include<al

location.hash詳解

一個顯著變化，就是URL加入了"#!"符號。比如，改版前的使用者主頁網址為　　http://twitter.com/username 改版後，就變成了　　http://twitter.com/#!/username 在我印象中，這是主流網站第一次將"#"大規模用於直接與使用者互動的關鍵URL中。

window.location.hash詳解

一、#的涵義代表網頁中的一個位置。其右面的字元，就是該位置的識別符號。比如，就代表網頁index.html的print位置。瀏覽器讀取這個URL後，會自動將print位置滾動至可視區域。為網頁位置指定識別符號，有兩個方法。一是使用錨點，比

c# 一致性HASH詳解

閱讀目錄: 使用場景演算法原理虛擬節點程式碼示例使用場景以Redis為例，當系統需要快取的內容超過單機記憶體大小時，例如要快取100G資料，單機記憶體僅有16G時。這時候就需要考慮進行快取資料分片，也即是把100G的資料拆分成多塊小於單機記憶體的資料。例如以10G為單位，

詳解webpack中的hash、chunkhash、contenthash區別

con tro 們的 tex trac extra lena fig files hash、chunkhash、contenthash hash一般是結合CDN緩存來使用，通過webpack構建之後，生成對應文件名自動帶上對應的MD5值。如果文件內容改變的話，那麽對應文件

BTree和B+Tree和Hash索引詳解

b-tree 關系查詢優化刪除節點 eight node 常用技術分享遍歷二叉查找樹二叉樹具有以下性質：左子樹的鍵值小於根的鍵值，右子樹的鍵值大於根的鍵值。如下圖所示就是一棵二叉查找樹，對該二叉樹的節點進行查找發現深度為1的節點的查找次數為1，深度為2的查

Shodan的http.favicon.hash語法詳解

簡單 tar 地址字段就是 mpi 舉例數值 sts 　　在Shodan搜索中有一個關於網站icon圖標的搜索語法，http.favicon.hash，我們可以使用這個語法來搜索出使用了同一icon圖標的網站，不知道怎麽用的朋友請參考我上一篇文章。　　通過上一篇文章

hash演算法原理詳解

一.概念雜湊表就是一種以鍵-值(key-indexed) 儲存資料的結構，我們只要輸入待查詢的值即key，即可查詢到其對應的值。雜湊的思路很簡單，如果所有的鍵都是整數，那麼就可以使用一個簡單的無序陣列來實現：將鍵作為索引，值即為其對應的值，這樣就可以快速訪問任意

Hash Compared & ELFHash 詳解

部分轉載自here 常用HASH演算法程式碼 & 比較常用的字串Hash函式還有ELFHash，APHash等等，都是十分簡單有效的方法。這些函式使用

POJ3974 Palindrome迴文子串 hash+二分答案做法詳解

Andy the smart computer science student was attending an algorithms class when the professor asked the students a simple question, "Can you propose an effi

多表連線的三種方式詳解 hash join、merge join、 nested loop

在多表聯合查詢的時候，如果我們檢視它的執行計劃，就會發現裡面有多表之間的連線方式。多表之間的連線有三種方式：Nested Loops，Hash Join 和 Sort Merge Join.具體適用哪種型別的連線取決於當前的優化器模式（ALL_ROWS 和 RULE）取決於表大小取決於連線列

深入理解Oracle表(5)：三大表連線方式詳解之Hash Join的定義，原理，演算法，成本，模式和點陣圖

Hash Join只能用於相等連線，且只能在CBO優化器模式下。相對於nested loop join，hash join更適合處理大型結果集 Hash Join的執行計劃第1個是hash表(build table)，第2個探查表(probe table)，

Redis 之hash集合結構及命令詳解

1、hset key field value 作用: 把key中 filed域的值設為value 注:如果沒有field域,直接新增,如果有,則覆蓋原field域的值 2、hmset key field1 value1 [field2 value2 field3 value3 ..

多表連線的三種方式詳解 HASH JOIN MERGE JOIN NESTED LOOP

在多表聯合查詢的時候，如果我們檢視它的執行計劃，就會發現裡面有多表之間的連線方式。之前打算在sqlplus中用執行計劃的，但是格式看起來有點亂，就用Toad 做了3個截圖。

InnoDB的關鍵特性-插入快取,兩次寫,自適應hash索引詳解

InnoDB儲存引擎的關鍵特性包括插入緩衝、兩次寫（double write）、自適應雜湊索引（adaptive hash index）。這些特性為InnoDB儲存引擎帶來了更好的效能和更高的可靠性。插入緩衝插入緩衝是InnoDB儲存引擎關鍵特性中最令人激動的。不過，這個名字

多表連線的三種方式詳解 HASH JOIN MERGE JOIN NESTED LOOP【3】

SQL server 內部實現了三種類型的內連線運算，大多數人從來沒有聽說過這些連線型別，因為它們不是邏輯連線也很少被用於程式碼中。那麼它們什麼時候會被用到呢？答案是要依情況而定。這就意味著要依賴於記錄集和索引。查詢優化器總是智慧的選擇最優的物理連線型別。我們知道SQL優

hashmap 中hash函式h & (length-1)詳解

Hashmap是一種非常常用的、應用廣泛的資料型別，最近研究到相關的內容，就正好複習一下。網上關於hashmap的文章很多，但到底是自己學習的總結，就發出來跟大家一起分享，一起討論。 1、hashmap的資料結構要知道hashmap是什麼，首先要搞清楚它的資料結構，在

HashMap底層詳解-002-hash演算法、長度的祕密

第二天，小粉粉和小灰灰又遇見了…… 之前咱們說過，有一個hash方法，用於計算元素的下標值。 index = hash(key) 在hash方法內部，我們通過key的hashCode值與HashMap的長度做某種運算，可以得到最

hash詳解

首先介紹一下hash？

哈希沖突

洛谷P3370 【模板】字符串哈希

題目描述

友情提醒：如果真的想好好練習哈希的話，請自覺，否則請右轉PJ試煉場:)

輸入輸出格式

輸入輸出樣例

說明

相關推薦