1. 程式人生 > 實用技巧 >Java集合框架1-- HashMap

Java集合框架1-- HashMap

HashMap的知識點可以說在面試中經常被問到,是Java中比較常見的一種資料結構。所以這一篇就通過原始碼來深入理解下HashMap。

1 HashMap的底層是如何實現的?(基於JDK8)

1.1 HashMap的類結構和成員

/**
HashMap繼承AbstractMap,而AbstractMap又實現了Map的介面
*/
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable

從上面原始碼可以看出HashMap支援序列化和反序列化,而且實現了cloneable介面,能支援clone()方法複製一個物件。

1.1.1 HashMap原始碼中的幾個成員屬性

//最小容量為16,且一定是2的冪次
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16 //最大容量為2的30次方
static final int MAXIMUM_CAPACITY = 1 << 30; // 預設載入因子
static final float DEFAULT_LOAD_FACTOR = 0.75f; //當某節點的連結串列長度大於8並且hash陣列的容量達到64時,連結串列將會轉換成紅黑樹
static final int TREEIFY_THRESHOLD = 8; //當連結串列長度小於6時,紅黑樹將轉換成連結串列
static final int UNTREEIFY_THRESHOLD = 6; //連結串列變成紅黑樹的最小容量
static final int MIN_TREEIFY_CAPACITY = 64;

從上面的原始碼可以看出,JDK1.8的HashMap實際上是由陣列+連結串列+紅黑樹組成,在一定條件下連結串列會轉換成紅黑樹。這裡要談一下預設載入因子為什麼為0.75(3/4),載入因子也叫擴容因子,用來判斷HashMap什麼時候進行擴容。選擇0.75的原因是為了平衡容量與查詢效能:擴容因子越大,造成hash衝突的機率就越大,查詢效能就會越低,反之擴容因子越小,所佔容量就會越大。於此同時,負載因子為3/4的話,和capacity的乘積結果就可以是一個整數。


下面再看看hash陣列中的元素

1.1.2 HashMap中的陣列節點

​ hash陣列一般稱為雜湊桶(bucket),結點在JDK1.7中叫Entry,在JDK1.8中叫Node。

//1.8中Node實現entry的介面
static class Node<K,V> implements Map.Entry<K,V> {
//每個節點都會包含四個欄位:hash、key、value、next
final int hash;
final K key;
V value;
Node<K,V> next;//指向下一個節點 Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
} public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; } //hash值是由key和value的hashcode異或得到
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
} public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
} public final boolean equals(Object o) {
if (o == this)
return true;
//判斷o物件是否為Map.Entry的例項
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
//再判斷兩者的key和value值是否相同
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
//這個是擾動函式,減少hash碰撞
static final int hash(Object key) {
int h;
//將key的高16位與低16位異或(int是2個位元組,32位)
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

1.2 HashMap中的方法

1.2.1 查詢方法

public V get(Object key) {
Node<K,V> e;
//將key值擾動後傳入getNode函式查詢節點
return (e = getNode(hash(key), key)) == null ? null : e.value;
}
final Node<K,V> getNode(int hash, Object key) {
Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
//判斷雜湊表是否為空,第一個節點是否為空
if ((tab = table) != null && (n = tab.length) > 0 &&
(first = tab[(n - 1) & hash]) != null) {
//從第一個節點開始查詢,如果hash值和key值相等,則查詢成功,返回該節點
if (first.hash == hash && // always check first node
((k = first.key) == key || (key != null && key.equals(k))))
return first;
//查詢下一個節點
if ((e = first.next) != null) {
//若該節點存在紅黑樹,則從紅黑樹中查詢節點
if (first instanceof TreeNode)
return ((TreeNode<K,V>)first).getTreeNode(hash, key);
//若該節點存在連結串列,循著連結串列查詢節點
do {
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
} while ((e = e.next) != null);
}
}
return null;
}

1.2.2 新增方法

向雜湊表中插入一個節點

public V put(K key, V value) {
//將擾動的hash值傳入,呼叫putVal函式
return putVal(hash(key), key, value, false, true);
}
//當引數onlyIfAbsent為true時,不會覆蓋相同key的值value;當evict是false時,表示是在初始化時呼叫
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
//若雜湊表為空,直接對雜湊表進行擴容
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//若當前節點為空,則直接在該處新建節點
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {//若當前節點非空,則說明發生雜湊碰撞,再考慮是連結串列或者紅黑樹
Node<K,V> e; K k;
//如果與該節點的hash值和key值都相等,將節點引用賦給e
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//如果p是樹節點的例項,呼叫紅黑樹方法新增一個樹節點e
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//若該節點後是連結串列
else {
for (int binCount = 0; ; ++binCount) {
//遍歷到連結串列末尾插入新節點
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
//若插入節點後,連結串列節點數大於轉變成紅黑樹的臨界值(>=8)
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
//將連結串列轉換成紅黑樹
treeifyBin(tab, hash);
break;
}
//遍歷過程中發現了key和hash值相同的節點,用e覆蓋該節點
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
//對e節點進行處理
if (e != null) {
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
//節點插入成功,修改modCount值
++modCount;
//如果達到擴容條件,直接擴容
if (++size > threshold)
resize(); afterNodeInsertion(evict);
return null;
}

1.2.3 擴容方法(非常重要)

final Node<K,V>[] resize() {
//當前的陣列
Node<K,V>[] oldTab = table;
//當前的陣列大小和閾值
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
//對新陣列大小和閾值初始化
int newCap, newThr = 0;
//若當前陣列非空
if (oldCap > 0) {
//若當前陣列超過容量最大值,返回原陣列不擴容
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
//若當前陣列低於閾值,直接在陣列容量範圍內擴大兩倍
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
//陣列為空,且大於最小容量(陣列初始化過)
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
//陣列為空,且沒有初始化
else { // zero initial threshold signifies using defaults
//初始化陣列
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
//陣列為空,且新的閾值為0
if (newThr == 0) {
//求出新的閾值(新陣列容量*載入因子)
float ft = (float)newCap * loadFactor;
//判斷新閾值是否越界,並做相應的賦值
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
//閾值更新
threshold = newThr; @SuppressWarnings({"rawtypes","unchecked"})
//構建新的陣列並賦值
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
//若之前陣列非空,將資料複製到新陣列中
if (oldTab != null) {
//迴圈之前陣列,將非空元素複製到新陣列中
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
//若迴圈到該節點是最後一個非空節點,直接賦值
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
//若發現該節點是樹節點
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
//若該節點後是連結串列
else { // preserve order
//定義現有陣列的位置low,擴容後的位置high;high = low + oldCap
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
/*通過(e.hash & oldCap)來確定元素是否需要移動,
e.hash & oldCap大於0,說明位置需要作相應的調整。
反之等於0時說明在該容量範圍內,下標位置不變。
*/
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//低位下標位置不變
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//處於高位位置要改變為j + oldCap
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}

​ HashMap實際上是執行緒不安全的,在JDK1.7中,連結串列的插入方式為頭插法,在多執行緒下插入可能會導致死迴圈。因此在JDK1.8中替換成尾插法(其實想要執行緒安全大可用ConcurrentHashMap、Hashtable)

//JDK1.7原始碼
void transfer(Entry[] newTable boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) {
//多執行緒在這裡會導致指向成環
Entry<K,V> next = e.next;
if(rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash, new Capacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}

假如HashMap的容量為2,其中在陣列中有一個元素a(此時已經到達擴容的臨界點)。建立兩個執行緒t1、t2分別插入b、c,因為沒有鎖,兩個執行緒都進行到擴容這一步,那麼其中有節點位子因為擴容必然會發生變化(以前的容量不夠),這個時候假設t1執行緒成功執行,插入成功。但是由於t2執行緒的合併,加上節點位置的挪動,就會造成連結串列成環。最後讀取失敗

1.2.4 刪除方法

//通過key值刪除該節點,並返回value
public V remove(Object key) {
Node<K,V> e;
return (e = removeNode(hash(key), key, null, false, true)) == null ? null : e.value;
}
//刪除某個節點
//若matchValue為true時,需要key和value都要相等才能刪除;若movable為false時,刪除節點時不移動其他節點
final Node<K,V> removeNode(int hash, Object key, Object value,boolean matchValue, boolean movable) {
Node<K,V>[] tab; Node<K,V> p; int n, index;
//若陣列非空
if ((tab = table) != null && (n = tab.length) > 0 &&
(p = tab[index = (n - 1) & hash]) != null) {
//設node為刪除點
Node<K,V> node = null, e; K k; V v;
//查到頭節點為所要刪除的點,直接賦於node
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
node = p;
//否則遍歷
else if ((e = p.next) != null) {
//當節點為樹節點
if (p instanceof TreeNode)
node = ((TreeNode<K,V>)p).getTreeNode(hash, key);
//節點為連結串列時
else {
do {
if (e.hash == hash &&
((k = e.key) == key ||
(key != null && key.equals(k)))) {
node = e;
break;
}
p = e;
} while ((e = e.next) != null);
}
}
//對取回的node節點進行處理,當matchValue為false,或者value相等時
if (node != null && (!matchValue || (v = node.value) == value ||
(value != null && value.equals(v)))) {
if (node instanceof TreeNode) //為樹節點
((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);
else if (node == p) //為連結串列頭結點
tab[index] = node.next;
else //為連結串列中部節點
p.next = node.next;
//修改modCount和size
++modCount;
--size;
afterNodeRemoval(node);
return node;
}
}
return null;
}

2.一些面試題

2.1 JDK1.8 HashMap擴容時做了哪些優化

  1. 新元素下標方面,1.8通過高位運算(e.hash & oldCap) == 0分類處理表中的元素:低位不變,高位原下標+原陣列長度;而不是像1.7中計算每一個元素下標。

  2. 在resize()函式中,1.8將1.7中的頭插逆序變成尾插順序。但是仍然建議在多執行緒下不要用HashMap。

2.2 HashMap與Hashtable的區別

  1. 執行緒安全:Hashtable是執行緒安全的,不允許key,value為null。
  2. 繼承父類:Hashtable是Dictionary類的子類(Dictionary類已經被廢棄),兩者都實現了Map介面。
  3. 擴容:Hashtable預設容量為11,擴容為原來的容量2倍+1,所以Hashtable獲取下標直接用模運運算元%。
  4. 儲存方式:Hashtable中出現衝突後,只有用連結串列方式儲存。

2.3 HashMap執行緒不安全,那麼有哪些Map可以實現執行緒安全

  1. Hashtable: 直接在方法上加synchronized關鍵字,鎖住整個雜湊桶
  2. ConcurrentHashMap:使用分段鎖,相比於Hashtable效能更高
  3. Collectons.synchronizedMap:是使用Collections集合工具的內部類,通過傳入Map封裝一個SynchronizedMap物件,內部定義一個物件鎖,方法通過物件鎖實現。

參考博文:

HashMap 底層實現原理是什麼?JDK8 做了哪些優化?

一個HashMap跟面試官扯了半個小時