HashMap的預設長度為什麼是16??
本文轉載至:http://blog.csdn.net/zjcjavahttps://blog.csdn.net/zjcjava/article/details/78495416
背景
雜湊演算法在Java中是經常用的的一個演算法,也是一些常用資料結構中必用的一個演算法,它為上層的複雜資料結構提供了基礎支撐。
雜湊演算法的實現有很多種,除了這裡講的map中的hashcode演算法,還有其他雜湊演算法:
1.直接定址法
2.數字分析法
3.摺疊法
4.平方取中法
5.減去法
6.字串數值雜湊法
7.旋轉法
更多演算法請參考另一篇作者的文章:
hash演算法原理詳解
HashMap中的HashCode演算法詳解
1,雜湊演算法在HashMap類中的應用
java中的集合,比如HashMap/Hashtable/HashSet等,在實現時,都用到了雜湊演算法。當我們向容器中新增元素時,我們有必要知道
這個元素是否已經存在。
從實現上來說,java是藉助hashcode()方法和equals()方法來實現判斷元素是否已經存在的。當我們向HashMap中插入元素A時,首先,
呼叫hashcode()方法,判斷元素A在容器中是否已經存在。如果A元素的hashcode值在HashMap中不存在,則直接插入。否則,接著呼叫
equals()方法,判斷A元素在容器中是否已經存在。hashcode()的時間複雜度為O(1),equals()方法的時間複雜度為O(m),整體的時間複雜度
就是:O(1) + O(m)。其中,m是桶的深度。桶的深度是一個什麼概念呢,桶的深度是指具有相同hashcode值得元素的個數,也就是發生雜湊
碰撞的元素的個數。
一個好的雜湊演算法應該儘量減少雜湊碰撞的次數。
HashCode是Object中本身就有的方法,但是沒有具體實現。而各個不同的資料型別又繼承實現了各自的具體HashCode演算法,這裡只以String型別的HashCode為例。
public int hashCode() { int h = hash; if (h == 0) { int off = offset; char val[] = value; int len = count; for (int i = 0; i < len; i++) { h = 31*h + val[off++]; } hash = h; } return h; }
原始碼寫的比較簡潔,閱讀起來也不是太方便,下面我詳細解讀一下:
// String類的hashcode值(雜湊值)是如何計算得到的?具體實現?為了方便閱讀,我們來進行分步說明
static void hashcodeTest(){
String str = "yangcq";
// 第一步 = (int)'y'
// 第二步 = (31 * (int)'y') + (int)'a'
// 第三步 = 31 * ((31 * (int)'y') + (int)'a') + (int)'n'
// 第四步 = 31 * (31 * ((31 * (int)'y') + (int)'a') + (int)'n') + (int)'g'
// 第五步 = 31 * (31 * (31 * ((31 * (int)'y') + (int)'a') + (int)'n') + (int)'g') + (int)'c'
// 第六步 = 31 * (31 * (31 * (31 * ((31 * (int)'y') + (int)'a') + (int)'n') + (int)'g') + (int)'c') + (int)'q'
// 上面的過程,也可以用下面的方式表示
// 第一步 = (int)'y'
// 第二步 = 31 * (第一步的計算結果) + (int)'a'
// 第三步 = 31 * (第二步的計算結果) + (int)'n'
// 第四步 = 31 * (第三步的計算結果) + (int)'g'
// 第五步 = 31 * (第四步的計算結果) + (int)'c'
// 第六步 = 31 * (第五步的計算結果) + (int)'q'
int hashcode = 31 * (31 * (31 * (31 * ((31 * (int)'y') + (int)'a') + (int)'n') + (int)'g') + (int)'c') + (int)'q';
System.out.println("yangcq的hashcode = " + hashcode); // yangcq的hashcode = -737879313
System.out.println("yangcq的hashcode = " + str.hashCode()); // yangcq的hashcode = -737879313
}
為什麼HashMap中的&位必須為奇數(Length - 1)
從Key對映到HashMap陣列的對應位置,會用到一個Hash函式:
index = Hash(“apple”)
如何實現一個儘量均勻分佈的Hash函式呢?我們通過利用Key的HashCode值來做某種運算。
如何進行位運算呢?有如下的公式(Length是HashMap的長度):
index = HashCode(Key) & (Length - 1)
下面我們以“book”的Key來演示整個過程:
1.計算book的hashcode,結果為十進位制的3029737,二進位制的101110001110101110 1001。
2.假定HashMap長度是預設的16,計算Length-1的結果為十進位制的15,二進位制的1111。
3.把以上兩個結果做與運算,101110001110101110 1001 & 1111 = 1001,十進位制是9,所以 index=9。
可以說,Hash演算法最終得到的index結果,完全取決於Key的Hashcode值的最後幾位。
假設HashMap的長度是10,重複剛才的運算步驟:
單獨看這個結果,表面上並沒有問題。我們再來嘗試一個新的HashCode 101110001110101110 1011 :
讓我們再換一個HashCode 101110001110101110 1111 試試 :
是的,雖然HashCode的倒數第二第三位從0變成了1,但是運算的結果都是1001。也就是說,當HashMap長度為10的時候,有些index結果的出現機率會更大,而有些index結果永遠不會出現(比如0111)!
這樣,顯然不符合Hash演算法均勻分佈的原則。
反觀長度16或者其他2的冪,Length-1的值是所有二進位制位全為1,這種情況下,index的結果等同於HashCode後幾位的值。只要輸入的HashCode本身分佈均勻,Hash演算法的結果就是均勻的。