通過java HashMap的存取方式來學習Hash儲存機制
最近重新開始看一遍java基礎,從原始碼讀起,堅持把自己在閱讀中的總結分享上來。下面是HashMap的一些總結。
HashMap的構造方法:
無參構造方法:會使用預設的初始容量和載入因子初始化map,預設初始化大小是16,載入因子0.75f
當雜湊表中的條目數超出了載入因子與當前容量的乘積時,則要對該雜湊表進行 rehash 操作(即重建內部資料結構),從而雜湊表將具有大約兩倍的桶數。
/** * The default initial capacity - MUST be a power of two. */ static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16 /** * The load factor used when none specified in constructor. */ static final float DEFAULT_LOAD_FACTOR = 0.75f; public HashMap() { this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR); }
自定義初始化大小
/** * Constructs an empty <tt>HashMap</tt> with the specified initial * capacity and the default load factor (0.75). * * @param initialCapacity the initial capacity. * @throws IllegalArgumentException if the initial capacity is negative. */ public HashMap(int initialCapacity) { this(initialCapacity, DEFAULT_LOAD_FACTOR); }
自定義初始化大小和載入因子
/** * Constructs an empty <tt>HashMap</tt> with the specified initial * capacity and load factor. * * @param initialCapacity the initial capacity * @param loadFactor the load factor * @throws IllegalArgumentException if the initial capacity is negative * or the load factor is nonpositive */ public HashMap(int initialCapacity, float loadFactor) { if (initialCapacity < 0) throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity); if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; if (loadFactor <= 0 || Float.isNaN(loadFactor)) throw new IllegalArgumentException("Illegal load factor: " + loadFactor); this.loadFactor = loadFactor; threshold = initialCapacity; init(); }
總結:當 建立 HashMap 時,有一個預設的負載因子(load factor),其預設值為 0.75,這是時間和空間成本上一種折衷:增大負載因子可以減少 Hash 表(就是那個 Entry 陣列)所佔用的記憶體空間,但會增加查詢資料的時間開銷,而查詢是最頻繁的的操作(HashMap 的 get() 與 put() 方法都要用到查詢);減小負載因子會提高資料查詢的效能,但會增加 Hash 表所佔用的記憶體空間。我們可以在建立 HashMap 時根據實際需要適當地調整 load factor 的值;如果程式比較關心空間開銷、記憶體比較緊張,可以適當地增加負載因子;如果程式比較關心時間開銷,記憶體比較寬裕則可以適當的減少負載因子。通常情況 下,無需改變負載因子的值。
HashMap最常用的put方法,程式碼如下:
/**
* Associates the specified value with the specified key in this map.
* If the map previously contained a mapping for the key, the old
* value is replaced.
*
* @param key key with which the specified value is to be associated
* @param value value to be associated with the specified key
* @return the previous value associated with <tt>key</tt>, or
* <tt>null</tt> if there was no mapping for <tt>key</tt>.
* (A <tt>null</tt> return can also indicate that the map
* previously associated <tt>null</tt> with <tt>key</tt>.)
*/
public V put(K key, V value) {
//如果陣列為空,初始化
if (table == EMPTY_TABLE) {
inflateTable(threshold);
}
//如果key為空,則呼叫putForNullKey進行處理
if (key == null)
return putForNullKey(value);
int hash = hash(key);//計算key的hashcode值
int i = indexFor(hash, table.length);//計算key在hash表中的索引,此處的table是一個Entry<k,v>陣列
//遍歷陣列,比較Entry是否一致(hash值相等,即在hash表中的同一位置),並且key值相等,則直接用新的value替換舊的value並返回value,key值不用替換。如果不滿足條件,則將key和value新增到i索引處
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
//將key和value新增到i索引處
addEntry(hash, key, value, i);
return null;
}
上面的put方法中用到了一個重要的內部類HashMap$Entry,每個 Entry 其實就是一個 key-value 對。從上面程式中可以看出:當系統決定儲存 HashMap 中的 key-value 對時,完全沒有考慮 Entry 中的 value,僅僅只是根據 key 來計算並決定每個 Entry 的儲存位置。當決定了 key 的儲存位置之後,value 隨之儲存在那裡即可,Entry原始碼如下:
static class Entry<K,V> implements Map.Entry<K,V> {
final K key;//key值
V value;//value值
Entry<K,V> next;//Entry鏈指向
int hash;//key的hash值
/**
* Creates new entry.
*/
Entry(int h, K k, V v, Entry<K,V> n) {
value = v;
next = n;
key = k;
hash = h;
}
public final K getKey() {
return key;
}
public final V getValue() {
return value;
}
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
public final boolean equals(Object o) {
if (!(o instanceof Map.Entry))
return false;
Map.Entry e = (Map.Entry)o;
Object k1 = getKey();
Object k2 = e.getKey();
if (k1 == k2 || (k1 != null && k1.equals(k2))) {
Object v1 = getValue();
Object v2 = e.getValue();
if (v1 == v2 || (v1 != null && v1.equals(v2)))
return true;
}
return false;
}
public final int hashCode() {
return Objects.hashCode(getKey()) ^ Objects.hashCode(getValue());
}
public final String toString() {
return getKey() + "=" + getValue();
}
/**
* This method is invoked whenever the value in an entry is
* overwritten by an invocation of put(k,v) for a key k that's already
* in the HashMap.
*/
void recordAccess(HashMap<K,V> m) {
}
/**
* This method is invoked whenever the entry is
* removed from the table.
*/
void recordRemoval(HashMap<K,V> m) {
}
}
put方法中呼叫了一個計算Hash碼的方法hash()來返回key的雜湊碼,這個方法是一個純粹的數學計算,其方法如下:
final int hash(Object k) {
int h = hashSeed;
if (0 != h && k instanceof String) {
return sun.misc.Hashing.stringHash32((String) k);
}
h ^= k.hashCode();
// This function ensures that hashCodes that differ only by
// constant multiples at each bit position have a bounded
// number of collisions (approximately 8 at default load factor).
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
對於任意給定的物件,只要它的 hashCode() 返回值相同,那麼程式呼叫 hash(int h) 方法所計算得到的 Hash 碼值總是相同的。接下來程式會呼叫 indexFor(int h, int length) 方法來計算該物件應該儲存在 table 陣列的哪個索引處。indexFor(int h, int length) 方法的程式碼如下:
//h為key的hash值,length為陣列的長度
static int indexFor(int h, int length)
{
return h & (length-1);
}
這個方法非常巧妙,它總是通過 h &(table.length -1) 來得到該物件的儲存位置,而HashMap底層陣列的長度總是2的n次方,這一點可參看前面關於HashMap構造器的介紹。
當length總是2的倍數時,h&(length-1)將是一個非常巧妙的設計:假設 h=5,length=16, 那麼h&(length - 1) 將得到5;如果h=6,length=16, 那麼h&(length - 1)將得到6 ;如果h=15,length=16, 那麼h&(length - 1)將得到15;但是當h=16時 ,length=16時,那麼h&(length - 1)將得到0了;當 h=17 時 , length=16 時,那麼h&(length - 1) 將得到1了……這樣保證計算得到的索引值總是位於 table 陣列的索引之內。
從put 方法的原始碼可以看出,當程式試圖將一個 key-value 對放入 HashMap 中時,程式首先根據該 key 的 hashCode() 返回值決定該 Entry 的儲存位置:如果兩個 Entry 的 key 的 hashCode() 返回值相同,那它們的儲存位置相同。儲存位置相同會分為兩種情況:
(1).如果這兩個 Entry 的 key 通過 equals 比較返回 true,新新增 Entry 的 value 將覆蓋集合中原有 Entry 的 value,但 key 不會覆蓋。
(2).如果這兩個 Entry 的 key 通過 equals 比較返回 false,新新增的 Entry 將與集合中原有 Entry 形成 Entry 鏈,而且新新增的 Entry 位於 Entry 鏈的頭部——具體說明繼續看 addEntry() 方法的說明。
儲存位置不同,則將key和value直接新增到i索引處。
addEntyr方法,原始碼如下:
void addEntry(int hash, K key, V value, int bucketIndex) {
//如果容量大於閾值,並且索引bucketIndex處的元素不為空
if ((size >= threshold) && (null != table[bucketIndex])) {
resize(2 * table.length);//擴容為原來陣列長度的兩倍
hash = (null != key) ? hash(key) : 0;//重新計算key的hash值
bucketIndex = indexFor(hash, table.length);//重新計算元素在新table中的索引
}
//建立新的entry物件並放到table的bucketIndex索引處,並讓新的entry指向原來的entry
createEntry(hash, key, value, bucketIndex);
}
void createEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<>(hash, key, value, e);
size++;
}
上面createEntry方法包含了一個非常優雅的設計:總是將新新增的 Entry 物件放入 table 陣列的 bucketIndex 索引處——如果 bucketIndex 索引處已經有了一個 Entry 物件,那新新增的 Entry 物件指向原有的 Entry 物件(產生一個 Entry 鏈),如果 bucketIndex 索引處沒有 Entry 物件,上面程式 e 變數是 null,也就是新放入的 Entry 物件指向 null,也就是Entry內部類中的next屬性為null,也就是沒有產生 Entry 鏈。,可以對比Entry類看。
解釋幾個名詞:
桶:對 於 HashMap 及其子類而言,它們採用 Hash 演算法來決定集合中元素的儲存位置。當開始初始化 HashMap 時,會建立一個長度為 capacity 的 Entry 陣列,這個數組裡可以儲存元素的位置被稱為“桶(bucket)”,每個 bucket 都有其指定索引,系統可以根據其索引快速訪問該 bucket 裡儲存的元素。
Entry鏈:無論何時,HashMap 的每個“桶”只儲存一個元素(也就是一個 Entry),由於 Entry 物件可以包含一個引用變數(就是 Entry 構造器的的最後一個引數next)用於指向下一個 Entry,因此可能出現的情況是:HashMap 的 bucket 中只有一個 Entry,但這個 Entry 指向另一個 Entry ——這就形成了一個 Entry 鏈。下圖為我簡單的畫了一個HashMap的儲存結構:
HashMap儲存結構圖
HashMap最常用的get方法,原始碼如下:
public V get(Object key) {
//如果key為null,則呼叫getForNullKey獲得value
if (key == null)
return getForNullKey();
//否則呼叫getEntry方法
Entry<K,V> entry = getEntry(key);
return null == entry ? null : entry.getValue();
}
final Entry<K,V> getEntry(Object key) {
if (size == 0) {
return null;
}
//計算key的hash值
int hash = (key == null) ? 0 : hash(key);
//直接通過key的hash值獲取該Entry在陣列中的下標,從而獲取該Entry物件並遍歷entry鏈,直到找到相等的key,然後取出該key對應的value。
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}
從上面程式碼中可以看出,如果 HashMap 的每個 bucket 裡只有一個 Entry 時,HashMap 可以根據索引、快速地取出該 bucket 裡的 Entry;在發生“Hash 衝突”的情況下,單個 bucket 裡儲存的不是一個 Entry,而是一個 Entry 鏈,只能按順序遍歷每個 Entry,直到找到想搜尋的 Entry 為止——如果恰好要搜尋的 Entry 位於該 Entry 鏈的最末端(該 Entry 是最早放入該 bucket 中),那必須迴圈到最後才能找到該元素。所以,當 HashMap 的每個 bucket 裡儲存的 Entry 只是單個 Entry ,也就是沒有通過指標產生 Entry 鏈時,此時的 HashMap 具有最好的效能:當程式通過 key 取出對應 value 時,只要先計算出該 key 的 hashCode() 返回值,在根據該 hashCode 返回值找出該 key 在 table 陣列中的索引,然後取出該索引處的 Entry,最後返回該 key 對應的 value 即可。