HashMap原理分析及JDK1.8效能優化

阿新 • • 發佈：2019-02-07

HashMap是java中一個重要概念，其原始碼部分研究起來也非常有意思，這裡做下總結。

本文中1-4的原文連結是: http://blog.csdn.net/vking_wang/article/details/14166593

1、HashMap的資料結構

資料結構中有陣列和連結串列來實現對資料的儲存，但這兩者基本上是兩個極端。

陣列

陣列儲存區間是連續的，佔用記憶體嚴重，故空間複雜的很大。但陣列的二分查詢時間複雜度小，為O(1)；陣列的特點是：定址容易，插入和刪除困難；

連結串列

連結串列儲存區間離散，佔用記憶體比較寬鬆，故空間複雜度很小，但時間複雜度很大，達O（N）。連結串列的特點是：定址困難，插入和刪除容易。

雜湊表

那麼我們能不能綜合兩者的特性，做出一種定址容易，插入刪除也容易的資料結構？答案是肯定的，這就是我們要提起的雜湊表。雜湊表（(Hash table）既滿足了資料的查詢方便，同時不佔用太多的內容空間，使用也十分方便。

雜湊表有多種不同的實現方法，我接下來解釋的是最常用的一種方法—— 拉鍊法，我們可以理解為“連結串列的陣列” ，如圖：

　　從上圖我們可以發現雜湊表是由陣列+連結串列組成的，一個長度為16的陣列中，每個元素儲存的是一個連結串列的頭結點。那麼這些元素是按照什麼樣的規則儲存到陣列中呢。一般情況是通過hash(key)%len獲得，也就是元素的key的雜湊值對陣列長度取模得到。比如上述雜湊表中，12%16=12,28%16=12,108%16=12,140%16=12。所以12、28、108以及140都儲存在陣列下標為12的位置。

　　HashMap其實也是一個線性的陣列實現的,所以可以理解為其儲存資料的容器就是一個線性陣列。這可能讓我們很不解，一個線性的陣列怎麼實現按鍵值對來存取資料呢？這裡HashMap有做一些處理。

　　首先HashMap裡面實現一個靜態內部類Entry，其重要的屬性有 key , value, next，從屬性key,value我們就能很明顯的看出來Entry就是HashMap鍵值對實現的一個基礎bean，我們上面說到HashMap的基礎就是一個線性陣列，這個陣列就是Entry[]，Map裡面的內容都儲存在Entry[]裡面。

/** * The table, resized as necessary. Length MUST Always be a power of two.

transient Entry[] table;

2、HashMap的存取實現

既然是線性陣列，為什麼能隨機存取？這裡HashMap用了一個小演算法，大致是這樣實現：

// 儲存時:
int hash = key.hashCode(); // 這個hashCode方法這裡不詳述,只要理解每個key的hash是一個固定的int值
int index = hash % Entry[].length;
Entry[index] = value;

// 取值時:
int hash = key.hashCode();
int index = hash % Entry[].length;
return Entry[index];

1）put

疑問：如果兩個key通過hash%Entry[].length得到的index相同，會不會有覆蓋的危險？

　　這裡HashMap裡面用到鏈式資料結構的一個概念。上面我們提到過Entry類裡面有一個next屬性，作用是指向下一個Entry。打個比方，第一個鍵值對A進來，通過計算其key的hash得到的index=0，記做:Entry[0] = A。一會後又進來一個鍵值對B，通過計算其index也等於0，現在怎麼辦？HashMap會這樣做:B.next = A,Entry[0] = B,如果又進來C,index也等於0,那麼C.next = B,Entry[0] = C；這樣我們發現index=0的地方其實存取了A,B,C三個鍵值對,他們通過next這個屬性連結在一起。所以疑問不用擔心。也就是說陣列中儲存的是最後插入的元素。到這裡為止，HashMap的大致實現，我們應該已經清楚了。

public V put(K key, V value) { if (key == null) return putForNullKey(value); //null總是放在陣列的第一個連結串列中 int hash = hash(key.hashCode()); int i = indexFor(hash, table.length); //遍歷連結串列 for (Entry<K,V> e = table[i]; e != null; e = e.next) { Object k; //如果key在連結串列中已存在，則替換為新value if (e.hash == hash && ((k = e.key) == key || key.equals(k))) { V oldValue = e.value; e.value = value; e.recordAccess(this); return oldValue; } } modCount++; addEntry(hash, key, value, i); return null;

}

void addEntry(int hash, K key, V value, int bucketIndex) { Entry<K,V> e = table[bucketIndex]; table[bucketIndex] = new Entry<K,V>(hash, key, value, e); //引數e, 是Entry.next //如果size超過threshold，則擴充table大小。再雜湊 if (size++ >= threshold) resize(2 * table.length);}

　　當然HashMap裡面也包含一些優化方面的實現，這裡也說一下。比如：Entry[]的長度一定後，隨著map裡面資料的越來越長，這樣同一個index的鏈就會很長，會不會影響效能？HashMap裡面設定一個因子，隨著map的size越來越大，Entry[]會以一定的規則加長長度。

2）get

public V get(Object key) { if (key == null) return getForNullKey(); int hash = hash(key.hashCode()); //先定位到陣列元素，再遍歷該元素處的連結串列 for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) { Object k; if (e.hash == hash && ((k = e.key) == key || key.equals(k))) return e.value; } return null;}

3）null key的存取

null key總是存放在Entry[]陣列的第一個元素。

private V putForNullKey(V value) { for (Entry<K,V> e = table[0]; e != null; e = e.next) { if (e.key == null) { V oldValue = e.value; e.value = value; e.recordAccess(this); return oldValue; } } modCount++; addEntry(0, null, value, 0); return null; } private V getForNullKey() { for (Entry<K,V> e = table[0]; e != null; e = e.next) { if (e.key == null) return e.value; } return null; }

4）確定陣列index：hashcode % table.length取模

HashMap存取時，都需要計算當前key應該對應Entry[]陣列哪個元素，即計算陣列下標；演算法如下：

/** * Returns index for hash code h. */ static int indexFor(int h, int length) { return h & (length-1); }按位取並，作用上相當於取模mod或者取餘%。這意味著陣列下標相同，並不表示hashCode相同。

5）table初始大小

public HashMap(int initialCapacity, float loadFactor) { ..... // Find a power of 2 >= initialCapacity int capacity = 1; while (capacity < initialCapacity) capacity <<= 1; this.loadFactor = loadFactor; threshold = (int)(capacity * loadFactor); table = new Entry[capacity]; init(); }

注意table初始大小並不是建構函式中的initialCapacity！！

而是 >= initialCapacity的2的n次冪！！！！

————為什麼這麼設計呢？——

3、解決hash衝突的辦法

開放定址法（線性探測再雜湊，二次探測再雜湊，偽隨機探測再雜湊）
再雜湊法
鏈地址法
建立一個公共溢位區

Java中hashmap的解決辦法就是採用的鏈地址法。

4、再雜湊rehash過程

當雜湊表的容量超過預設容量時，必須調整table的大小。當容量已經達到最大可能值時，那麼該方法就將容量調整到Integer.MAX_VALUE返回，這時，需要建立一張新表，將原表的對映到新表中。

/** * Rehashes the contents of this map into a new array with a * larger capacity. This method is called automatically when the * number of keys in this map reaches its threshold. * * If current capacity is MAXIMUM_CAPACITY, this method does not * resize the map, but sets threshold to Integer.MAX_VALUE. * This has the effect of preventing future calls. * * @param newCapacity the new capacity, MUST be a power of two; * must be greater than current capacity unless current * capacity is MAXIMUM_CAPACITY (in which case value * is irrelevant). */ void resize(int newCapacity) { Entry[] oldTable = table; int oldCapacity = oldTable.length; if (oldCapacity == MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return; } Entry[] newTable = new Entry[newCapacity]; transfer(newTable); table = newTable; threshold = (int)(newCapacity * loadFactor);

}

/** * Transfers all entries from current table to newTable. */ void transfer(Entry[] newTable) { Entry[] src = table; int newCapacity = newTable.length; for (int j = 0; j < src.length; j++) { Entry<K,V> e = src[j]; if (e != null) { src[j] = null; do { Entry<K,V> next = e.next; //重新計算index int i = indexFor(e.hash, newCapacity); e.next = newTable[i]; newTable[i] = e; e = next; } while (e != null); } }

}

5、JDK1.8中HashMap的效能優化

JDK1.8在JDK1.7的基礎上針對一個鏈上資料過多（即拉鍊過長的情況）導致效能下降，增加了紅黑樹來進行優化。即當連結串列超過8時，連結串列就轉換為紅黑樹，利用紅黑樹快速增刪改查的特點提高HashMap的效能，其中會用到紅黑樹的插入、刪除、查詢等演算法。

當插入新元素時，對於紅黑樹的判斷，我們可以結合JDK1.8的HashMap的put方法原始碼來具體分析：

public V put(K key, V value) {

// 對key的hashCode()做hash

return putVal(hash(key), key, value, false, true);

}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,

boolean evict) {

Node<K,V>[] tab; Node<K,V> p; int n, i;

//①：如果tab為null則建立

if((tab = table) == null || (n = tab.length) == 0)

n = (tab = resize()).length;

//②：計算index，並對null做處理

if((p = tab[i = (n - 1) & hash]) == null)

tab[i] = newNode(hash, key, value, null);

else {

Node<K,V> e; K k;

// ③：如果節點key存在，則直接覆蓋value

if (p.hash == hash &&

((k = p.key) == key || (key != null && key.equals(k))))

e = p;

// ④：判斷該鏈p是否是紅黑樹，如果是紅黑樹，則直接在樹中插入鍵值對，否則轉向下面

else if (p instanceof TreeNode)

e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);

// ⑤：該鏈為連結串列遍歷p，判斷連結串列長度是否大於8，如果大於8的話把連結串列轉換為紅黑樹，在紅黑樹中執行插入操作，否則進行連結串列的插入操作

else {

for (int binCount = 0; ; ++binCount) {

if ((e = p.next) == null) {

p.next = newNode(hash,key,value,null);

//連結串列長度大於8轉換為紅黑樹進行處理

if (binCount >=TREEIFY_THRESHOLD - 1)

treeifyBin(tab, hash);

break;

}

//遍歷過程中若發現key已經存在直接覆蓋value即可

if (e.hash == hash &&

((k = e.key) == key ||(key != null && key.equals(k))))

p = e;

}

if (e != null) { // existing mapping for key

V oldValue = e.value;

if (!onlyIfAbsent || oldValue == null)

e.value = value;

afterNodeAccess(e);

return oldValue;

}

++modCount;

//⑥：超過最大容量則擴容

if(++size > threshold)

resize();

afterNodeInsertion(evict);

return null;

}

HashMap原理分析及JDK1.8效能優化

1、HashMap的資料結構

陣列

連結串列

雜湊表

2、HashMap的存取實現

1）put

2）get

3）null key的存取

4）確定陣列index：hashcode % table.length取模

5）table初始大小

3、解決hash衝突的辦法

4、再雜湊rehash過程

5、JDK1.8中HashMap的效能優化

HashMap原理分析及JDK1.8效能優化

Android效能優化之 App啟動原理分析及速度和時間優化

HashMap原始碼分析（JDK1.8）- 你該知道的都在這裡了

java集合（4）：HashMap原始碼分析（jdk1.8）

HashMap原始碼分析（jdk1.8）

Android效能優化（一）App啟動原理分析及啟動時間優化

JDK1.7中HashMap死環問題及JDK1.8中對HashMap的優化原始碼詳解

HashMap源碼分析（JDK1.8）

HashMap實現原理分析及簡單實現一個HashMap

HashMap分析（JDK1.8）

HashMap全面分析及JDK8對HashMap的相關優化

HashMap原始碼分析及原理總結

HashMap主要方法原始碼分析（JDK1.8）

Android 65K問題之Multidex原理分析及NoClassDefFoundError的解決方法

MYSQL主從不同步延遲原理分析及解決方案

String.intern()詳細分析，JDK1.8

java中排序原始碼分析（JDK1.8）

PhpStorm Xdebug遠端除錯環境搭建原理分析及問題排查

【Java集合類】LinkedList原始碼分析（jdk1.8）

HashSet 原始碼分析（jdk1.8）

HashMap原理分析及JDK1.8效能優化

1、HashMap的資料結構

陣列

連結串列

雜湊表

2、HashMap的存取實現

1）put

2）get

3）null key的存取

4）確定陣列index：hashcode % table.length取模

5）table初始大小

3、解決hash衝突的辦法

4、再雜湊rehash過程

5、JDK1.8中HashMap的效能優化

相關推薦