1. 程式人生 > 其它 >Hashmap實現原理及擴容機制詳解

Hashmap實現原理及擴容機制詳解

目錄

HashMap基礎

HashMap實現原理

Node和Node鏈

拉鍊法

關於Node陣列 table

雜湊演算法

HashMap和紅黑樹

關於TreeNode

紅黑樹基礎

HashMap擴容機制

JDK1.7下的擴容機制

JDK1.8下的擴容機制
HashMap基礎

HashMap繼承了AbstractMap類,實現了Map,Cloneable,Serializable介面

HashMap的容量,預設是16

/**
* The default initial capacity - MUST be a power of two.
*/
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

HashMap的載入因子,預設是0.75

/**
* The load factor used when none specified in constructor.
*/
static final float DEFAULT_LOAD_FACTOR = 0.75f;

當HashMap中元素數超過容量*載入因子時,HashMap會進行擴容。


HashMap實現原理


Node和Node鏈

首先來了解一下HashMap中的元素型別

HashMap類中的元素是Node類,翻譯過來就是節點,是定義在HashMap中的一個內部類,實現了Map.Entry介面。

Node類的定義如下:

/**
* Basic hash bin node, used for most entries. (See below for
* TreeNode subclass, and in LinkedHashMap for its Entry subclass.)
*/
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;

Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}

public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }

public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}

public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}

public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}

可以看到,Node類的基本屬性有:

hash:key的雜湊值

key:節點的key,型別和定義HashMap時的key相同

value:節點的value,型別和定義HashMap時的value相同

next:該節點的下一節點

值得注意的是其中的next屬性,記錄的是下一個節點本身,也是一個Node節點,這個Node節點也有next屬性,記錄了下一個節點,於是,只要不斷的呼叫Node.next.next.next……,就可以得到:

Node-->下個Node-->下下個Node……-->null

這樣的一個連結串列結構,而對於一個HashMap來說,只要明確記錄每個連結串列的第一個節點,就能順序遍歷連結串列上的所有節點。


拉鍊法

HashMap使用拉鍊法管理其中的每個節點。

由Node節點組成連結串列之後,HashMap定義了一個Node陣列:

transient Node<K,V>[] table;

這個陣列記錄了每個連結串列的第一個節點,於是最終形成了HashMap下面這樣的資料結構:

這種陣列+連結串列的資料結構,使得HashMap可以較為高效的管理每一個節點。


關於Node陣列 table

對於table的理解,對後面關於擴容的理解很有幫助。

table在第一次往HashMap中put元素的時候初始化。

如果HashMap初始化的時候沒有指定容量,那麼初始化table的時候會使用預設的DEFAULT_INITIAL_CAPACITY引數,也就是16,作為table初始化時的長度。

如果HashMap初始化的時候指定了容量,HashMap會把這個容量修改為2的倍數,然後建立對應長度的table。

table在HashMap擴容的時候,長度會翻倍。

所以table的長度肯定是2的倍數。

修改容量的方法是這樣的:

/**
* Returns a power of two size for the given target capacity.
*/
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

所以要注意,如果要往HashMap中放1000個元素,又不想讓HashMap不停的擴容,最好一開始就把容量設為2048,設為1024不行,因為元素新增到七百多的時候還是會擴容。


雜湊演算法

當呼叫HashMap.put()方法時,經歷了以下步驟:

1,對key進行hash值計算

static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

2,hash值和table.length取模

取模的方法是(table.length - 1) & hash,演算法直接捨棄了二進位制hash值在table.length以上的位,因為那些位都代表table.length的2的n次方倍數。

取模的結果就是Node將要放入table的下標。

比如,一個Node的hash值是5,table長度是4,那麼取餘的結果是1,也就是說,這個Node將被放入table[1]所代表的連結串列(table[1]本身指向的是連結串列的第一個節點)。

3,新增元素

如果此時table的對應位置沒有任何元素,也就是table[i]=null,那麼就直接把Node放入table[i]的位置,並且這個Node的next==null。

如果此時table對應位置是一個Node,說明對應的位置已經儲存了一個Node連結串列,則需要遍歷連結串列,如果發現相同hash值則替換Node節點,如果沒有相同hash值,則把新的Node插入連結串列的末端,作為之前末端Node的next,同時新Node的next==null。

如果此時table對應位置是一個TreeNode,說明連結串列被轉換成了紅黑樹,則根據hash值向紅黑樹中新增或替換TreeNode。(JDK1.8)

4,如果新增元素之後,Node連結串列的節點數超過了8個,則該連結串列會考慮轉為紅黑樹。(JDK1.8)

5,如果新增元素之後,HashMap總節點數超過了閾值,則HashMap會進行擴容。

相關程式碼是這樣的:

public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null) //註釋1
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k)))) //註釋2
e = p;
else if (p instanceof TreeNode) //註釋3
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash); //註釋4
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold) //註釋5
resize();
afterNodeInsertion(evict);
return null;
}

程式碼解析:

1,註釋1,table對應位置無節點,則建立新的Node節點放入對應位置。

2,註釋2,table對應位置有節點,如果hash值匹配,則替換。

3,註釋3,table對應位置有節點,如果table對應位置已經是一個TreeNode,不再是Node,也就說,table對應位置是TreeNode,表示已經從連結串列轉換成了紅黑樹,則執行插入紅黑樹節點的邏輯。

4,註釋4,table對應位置有節點,且節點是Node(連結串列狀態,不是紅黑樹),連結串列中節點數量大於TREEIFY_THRESHOLD,則考慮變為紅黑樹。實際上不一定真的立刻就變,table短的時候擴容一下也能解決問題,後面的程式碼會提到。

5,註釋5,HashMap中節點個數大於threshold,會進行擴容。


HashMap和紅黑樹

從JDK1.8開始,在HashMap裡面定義了一個常量TREEIFY_THRESHOLD,預設為8。當連結串列中的節點數量大於TREEIFY_THRESHOLD時,連結串列將會考慮改為紅黑樹,程式碼是在上面putVal()方法的這一部分:

for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}

其中的treeifyBin()方法就是連結串列轉紅黑樹的方法,這個方法的程式碼是這樣的:

/**
* Replaces all linked nodes in bin at index for given hash unless
* table is too small, in which case resizes instead.
*/
final void treeifyBin(Node<K,V>[] tab, int hash) {
int n, index; Node<K,V> e;
if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
resize();
else if ((e = tab[index = (n - 1) & hash]) != null) {
TreeNode<K,V> hd = null, tl = null;
do {
TreeNode<K,V> p = replacementTreeNode(e, null);
if (tl == null)
hd = p;
else {
p.prev = tl;
tl.next = p;
}
tl = p;
} while ((e = e.next) != null);
if ((tab[index] = hd) != null)
hd.treeify(tab);
}
}

可以看到,如果table長度小於常量MIN_TREEIFY_CAPACITY時,不會變為紅黑樹,而是呼叫resize()方法進行擴容。MIN_TREEIFY_CAPACITY的預設值是64。顯然HashMap認為,雖然連結串列長度超過了8,但是table長度太短,只需要擴容然後重新雜湊一下就可以。

後面的程式碼中可以看到,如果table長度已經達到了64,就會開始變為紅黑樹,else if中的程式碼把原來的Node節點變成了TreeNode節點,並且進行了紅黑樹的轉換。


關於TreeNode

當HashMap把連結串列轉為紅黑樹的時候,原來的Node節點就會被轉為TreeNode節點,TreeNode也是HashMap中定義的內部類,定義大概是這樣的:

/**
* Entry for Tree bins. Extends LinkedHashMap.Entry (which in turn
* extends Node) so can be used as extension of either regular or
* linked node.
*/
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent; // red-black tree links
TreeNode<K,V> left;
TreeNode<K,V> right;
TreeNode<K,V> prev; // needed to unlink next upon deletion
boolean red;
TreeNode(int hash, K key, V val, Node<K,V> next) {
super(hash, key, val, next);
}

/**
* Returns root of tree containing this node.
*/
final TreeNode<K,V> root() {
for (TreeNode<K,V> r = this, p;;) {
if ((p = r.parent) == null)
return r;
r = p;
}
}

/**
* Ensures that the given root is the first node of its bin.
*/
static <K,V> void moveRootToFront(Node<K,V>[] tab, TreeNode<K,V> root) {
int n;
if (root != null && tab != null && (n = tab.length) > 0) {
int index = (n - 1) & root.hash;
TreeNode<K,V> first = (TreeNode<K,V>)tab[index];
if (root != first) {
Node<K,V> rn;
tab[index] = root;
TreeNode<K,V> rp = root.prev;
if ((rn = root.next) != null)
((TreeNode<K,V>)rn).prev = rp;
if (rp != null)
rp.next = rn;
if (first != null)
first.prev = root;
root.next = first;
root.prev = null;
}
assert checkInvariants(root);
}
}

/**
* Finds the node starting at root p with the given hash and key.
* The kc argument caches comparableClassFor(key) upon first use
* comparing keys.
*/
final TreeNode<K,V> find(int h, Object k, Class<?> kc) {
TreeNode<K,V> p = this;
do {
int ph, dir; K pk;
TreeNode<K,V> pl = p.left, pr = p.right, q;
if ((ph = p.hash) > h)
p = pl;
else if (ph < h)
p = pr;
else if ((pk = p.key) == k || (k != null && k.equals(pk)))
return p;
else if (pl == null)
p = pr;
else if (pr == null)
p = pl;
else if ((kc != null ||
(kc = comparableClassFor(k)) != null) &&
(dir = compareComparables(kc, k, pk)) != 0)
p = (dir < 0) ? pl : pr;
else if ((q = pr.find(h, k, kc)) != null)
return q;
else
p = pl;
} while (p != null);
return null;
}

可以看到,TreeNode繼承了LinkedHashMap的Entry,TreeNode節點在構造時,也指定了hash值,key,value,下一節點next,這些都是和Node相同的結構。

同時,TreeNode還儲存了父節點parent, 左孩子left,右孩子right,上一節點prev,另外還有紅黑樹用到的red屬性。


紅黑樹基礎

紅黑樹是一種近似平衡的二叉查詢樹,他並非絕對平衡,但是可以保證任何一個節點的左右子樹的高度差不會超過二者中較低的那個的一倍。

紅黑樹有這樣的特點:

1,每個節點要麼是紅色,要麼是黑色。

2,根節點必須是黑色。葉子節點必須是黑色NULL節點。

3,紅色節點不能連續。

4,對於每個節點,從該點至葉子節點的任何路徑,都含有相同個數的黑色節點。

5,能夠以O(log2(N))的時間複雜度進行搜尋、插入、刪除操作。此外,任何不平衡都會在3次旋轉之內解決。


HashMap擴容機制

當HashMap決定擴容時,會呼叫HashMap類中的resize(int newCapacity)方法,引數是新的table長度。在JDK1.7和JDK1.8的擴容機制有很大不同。


JDK1.7下的擴容機制

JDK1.7下的resize()方法是這樣的:

void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}

Entry[] newTable = new Entry[newCapacity];
transfer(newTable, initHashSeedAsNeeded(newCapacity));
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}

程式碼中可以看到,如果原有table長度已經達到了上限,就不再擴容了。

如果還未達到上限,則建立一個新的table,並呼叫transfer方法:

/**
* Transfers all entries from current table to newTable.
*/
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) {
Entry<K,V> next = e.next; //註釋1
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash, newCapacity); //註釋2
e.next = newTable[i]; //註釋3
newTable[i] = e; //註釋4
e = next; //註釋5
}
}
}

transfer方法的作用是把原table的Node放到新的table中,使用的是頭插法,也就是說,新table中連結串列的順序和舊列表中是相反的,在HashMap執行緒不安全的情況下,這種頭插法可能會導致環狀節點。

其中的while迴圈描述了頭插法的過程,這個邏輯有點繞,下面舉個例子來解析一下這段程式碼。

假設原有table記錄的某個連結串列,比如table[1]=3,連結串列為3-->5-->7,那麼處理流程為:

1,註釋1:記錄e.next的值。開始時e是table[1],所以e==3,e.next==5,那麼此時next==5。

2,註釋2,計算e在newTable中的節點。為了展示頭插法的倒序結果,這裡假設e再次雜湊到了newTable[1]的連結串列中。

3,註釋3,把newTable [1]賦值給e.next。因為newTable是新建的,所以newTable[1]==null,所以此時3.next==null。

4,註釋4,e賦值給newTable[1]。此時newTable[1]=3。

5,註釋5,next賦值給e。此時e==5。

此時newTable[1]中添加了第一個Node節點3,下面進入第二次迴圈,第二次迴圈開始時e==5。

1,註釋1:記錄e.next的值。5.next是7,所以next==7。

2,註釋2,計算e在newTable中的節點。為了展示頭插法的倒序結果,這裡假設e再次雜湊到了newTable[1]的連結串列中。

3,註釋3,把newTable [1]賦值給e.next。因為newTable[1]是3(參見上一次迴圈的註釋4),e是5,所以5.next==3。

4,註釋4,e賦值給newTable[1]。此時newTable[1]==5。

5,註釋5,next賦值給e。此時e==7。

此時newTable[1]是5,連結串列順序是5-->3。

下面進入第三次迴圈,第二次迴圈開始時e==7。

1,註釋1:記錄e.next的值。7.next是NULL,所以next==NULL。

2,註釋2,計算e在newTable中的節點。為了展示頭插法的倒序結果,這裡假設e再次雜湊到了newTable[1]的連結串列中。

3,註釋3,把newTable [1]賦值給e.next。因為newTable[1]是5(參見上一次迴圈的註釋4),e是7,所以7.next==5。

4,註釋4,e賦值給newTable[1]。此時newTable[1]==7。

5,註釋5,next賦值給e。此時e==NULL。

此時newTable[1]是7,迴圈結束,連結串列順序是7-->5-->3,和原連結串列順序相反。

注意:這種逆序的擴容方式在多執行緒時有可能出現環形連結串列,出現環形連結串列的原因大概是這樣的:執行緒1準備處理節點,執行緒二把HashMap擴容成功,連結串列已經逆向排序,那麼執行緒1在處理節點時就可能出現環形連結串列。



另外單獨說一下indexFor(e.hash, newCapacity);這個方法,這個方法是計算節點在新table中的下標用的,這個方法的程式碼如下:

/**
* Returns index for hash code h.
*/
static int indexFor(int h, int length) {
// assert Integer.bitCount(length) == 1 : "length must be a non-zero power of 2";
return h & (length-1);
}

計算下標的演算法很簡單,hash值 和 (length-1)按位與,使用length-1的意義在於,length是2的倍數,所以length-1在二進位制來說每位都是1,這樣可以保證最大的程度的雜湊hash值,否則,當有一位是0時,不管hash值對應位是1還是0,按位與後的結果都是0,會造成雜湊結果的重複。


JDK1.8下的擴容機制

JDK1.8對resize()方法進行很大的調整,JDK1.8的resize()方法如下:

final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY) //註釋1
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) { //註釋2
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null) //註釋3
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
if ((e.hash & oldCap) == 0) { //註釋4
if (loTail == null) //註釋5
loHead = e;
else
loTail.next = e; //註釋6
loTail = e; //註釋7
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) { /註釋8
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}

程式碼解析:

1,在resize()方法中,定義了oldCap引數,記錄了原table的長度,定義了newCap引數,記錄新table長度,newCap是oldCap長度的2倍(註釋1),同時擴充套件點也乘2。

2,註釋2是迴圈原table,把原table中的每個連結串列中的每個元素放入新table。

3,註釋3,e.next==null,指的是連結串列中只有一個元素,所以直接把e放入新table,其中的e.hash & (newCap - 1)就是計算e在新table中的位置,和JDK1.7中的indexFor()方法是一回事。

4,註釋// preserve order,這個註釋是原始碼自帶的,這裡定義了4個變數:loHead,loTail,hiHead,hiTail,看起來可能有點眼暈,其實這裡體現了JDK1.8對於計算節點在table中下標的新思路:

正常情況下,計算節點在table中的下標的方法是:hash&(oldTable.length-1),擴容之後,table長度翻倍,計算table下標的方法是hash&(newTable.length-1),也就是hash&(oldTable.length*2-1),於是我們有了這樣的結論:這新舊兩次計算下標的結果,要不然就相同,要不然就是新下標等於舊下標加上舊陣列的長度。

舉個例子,假設table原長度是16,擴容後長度32,那麼一個hash值在擴容前後的table下標是這麼計算的:

hash值的每個二進位制位用abcde來表示,那麼,hash和新舊table按位與的結果,最後4位顯然是相同的,唯一可能出現的區別就在第5位,也就是hash值的b所在的那一位,如果b所在的那一位是0,那麼新table按位與的結果和舊table的結果就相同,反之如果b所在的那一位是1,則新table按位與的結果就比舊table的結果多了10000(二進位制),而這個二進位制10000就是舊table的長度16。

換言之,hash值的新雜湊下標是不是需要加上舊table長度,只需要看看hash值第5位是不是1就行了,位運算的方法就是hash值和10000(也就是舊table長度)來按位與,其結果只可能是10000或者00000。



所以,註釋4處的e.hash & oldCap,就是用於計算位置b到底是0還是1用的,只要其結果是0,則新雜湊下標就等於原雜湊下標,否則新雜湊座標要在原雜湊座標的基礎上加上原table長度。



理解了上面的原理,這裡的程式碼就好理解了,程式碼中定義的四個變數:

loHead,下標不變情況下的連結串列頭

loTail,下標不變情況下的連結串列尾

hiHead,下標改變情況下的連結串列頭

hiTail,下標改變情況下的連結串列尾

而註釋4處的(e.hash & oldCap) == 0,就是代表雜湊下標不變的情況,這種情況下程式碼只使用了loHead和loTail兩個引數,由他們組成了一個連結串列,否則將使用hiHead和hiTail引數。

其實e.hash & oldCap等於0和不等於0後的邏輯完全相同,只是用的變數不一樣。

以等於0的情況為例,處理一個3-->5-->7的連結串列,過程如下:

首先處理節點3,e==3,e.next==5

1,註釋5,一開始loTail是null,所以把3賦值給loHead。

2,註釋7,把3賦值給loTail。

然後處理節點5,e==5,e.next==7

1,註釋6,loTail有值,把e賦值給loTail.next,也就是3.next==5。

2,註釋7,把5賦值給loTail。

現在新連結串列是3-->5,然後處理節點7,處理完之後,連結串列的順序是3-->5-->7,loHead是3,loTail是7。可以看到,連結串列中節點順序和原連結串列相同,不再是JDK1.7的倒序了。

程式碼到註釋8這裡就好理解了,

只要loTail不是null,說明連結串列中的元素在新table中的下標沒變,所以新table的對應下標中放的是loHead,另外把loTail的next設為null

反之,hiTail不是null,說明連結串列中的元素在新table中的下標,應該是原下標加原table長度,新table對應下標處放的是hiHead,另外把hiTail的next設為null。
————————————————
版權宣告:本文為CSDN博主「lkforce」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處連結及本宣告。
原文連結:https://blog.csdn.net/lkforce/article/details/89521318