看完這篇 HashSet,跟面試官扯皮沒問題了
阿新 • • 發佈:2020-07-01
> 我是風箏,公眾號「古時的風箏」,一個兼具深度與廣度的程式設計師鼓勵師,一個本打算寫詩卻寫起了程式碼的田園碼農!
文章會收錄在 [JavaNewBee](https://github.com/huzhicheng/JavaNewBee) 中,更有 Java 後端知識圖譜,從小白到大牛要走的路都在裡面。
之前的[7000 字說清楚 HashMap](https://mp.weixin.qq.com/s/H6lxTfpedzzDz2QXihhdmw)已經詳細介紹了 HashMap 的原理和實現,本次再來說說他的同胞兄弟 HashSet,這兩兄弟經常被拿出來一起說,面試的時候,也經常是兩者結合著考察。難道它們兩個的實現方式很類似嗎,不然為什麼總是放在一起比較。
實際上並不是因為它倆相似,從根本上來說,它倆本來就是同一個東西。再說的清楚明白一點, HashSet 就是個套了殼兒的 HashMap。所謂君子善假於物,HashSet 就假了 HashMap。既然你 HashMap 都擺在那兒了,那我 HashSet 何必重複造輪子,借你一樣,何不美哉!
![HashSet](https://tva1.sinaimg.cn/large/007S8ZIlly1gga3ljjm7ij310y0q4abv.jpg)
## HashSet 是什麼
下面是 `HashSet`的繼承關係圖,還是老樣子,我們看一個數據結構的時候先看它的繼承關係圖。與 `HashSet`並列的還有 `TreeSet`,另外 `HashSet` 還有個子型別 `LinkedHashSet`,這個我們後面再說。
![HashSet 結構](https://tva1.sinaimg.cn/large/007S8ZIlly1gg6mcic2ujj30to0zo3zq.jpg)
### 套殼 HashMap
為啥這麼說呢,在我第一次看 `HashSet`原始碼的時候,已經準備好了筆記本,拿好了圓珠筆,準備好好探究一下 `HashSet`的神奇所在。可當我按著`Ctrl`+滑鼠左鍵進入原始碼的建構函式的時候,我以為我走錯了地方,這建構函式有點簡單,甚至還有點神奇。new 了一個 `HashMap`並且賦給了 map 屬性。
```java
private transient HashMap map;
public HashSet() {
map = new HashMap<>();
}
```
再三確認沒看錯的情況下,我明白了,`HashSet`就是在`HashMap`的基礎上套了個殼兒,我們用的是個`HashSet`,實際上它的內部儲存邏輯都是 `HashMap`的那套邏輯。
除了上面的那個無參型別的構造方法,還有其他的有參構造方法,一看便知,其實就是 `HashMap`包裝了一層而已。
```java
public HashSet(Collection extends E> c) {
map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
addAll(c);
}
public HashSet(int initialCapacity, float loadFactor) {
map = new HashMap<>(initialCapacity, loadFactor);
}
public HashSet(int initialCapacity) {
map = new HashMap<>(initialCapacity);
}
```
### 用法
`HashSet`應該算是眾多資料結構中最簡單的一個了,滿打滿算也就那麼幾個方法。
```java
public Iterator iterator() {
return map.keySet().iterator();
}
public int size() {
return map.size();
}
public boolean isEmpty() {
return map.isEmpty();
}
public boolean contains(Object o) {
return map.containsKey(o);
}
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}
public boolean remove(Object o) {
return map.remove(o)==PRESENT;
}
public void clear() {
map.clear();
}
```
很簡單對不對,就這麼幾個方法,而且你看每個方法其實都是對應的操作 map,也就是內部的 `HashMap`,也就是說只要你懂了 `HashMap`自然也就懂了 `HashSet`。
## 保證不重複
`Set`介面要求不能有重複項,只要繼承了 `Set`就要遵守這個規定。我們大多數情況下使用 `HashSet`也是因為它有去重的功能。
那它是如何辦到的呢,這就要從它的 `add`方法說起了。
```java
// Dummy value to associate with an Object in the backing Map
private static final Object PRESENT = new Object();
public boolean add(E e) {
return map.put(e, PRESENT)==null;
}
```
`HashSet`的 `add`方法其實就是呼叫了`HashMap`的`put`方法,但是我們都知道 `put`進去的是一個鍵值對,但是 `HashSet`存的不是鍵值對啊,是一個泛型啊,那它是怎麼辦到的呢?
它把你要存的值當做 `HashMap`的 key,而 value 值是一個 `final`的`Object`物件,只起一個佔位作用。而`HashMap`本身就不允許重複鍵,正好被`HashSet`拿來即用。
### 如何保證不重複呢
`HashMap`中不允許存在相同的 key 的,那怎麼保證 key 的唯一性呢,判斷的程式碼如下。
```java
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
```
首先通過 hash 演算法算出的值必須相等,算出的結果是 int,所以可以用 == 符號判斷。只是這個條件可不行,要知道雜湊碰撞是什麼意思,有可能兩個不一樣的 key 最後產生的 hash 值是相同的。
並且待插入的 key == 當前索引已存在的 key,或者 待插入的 key.equals(當前索引已存在的key),注意`==` 和 equals 是或的關係。== 符號意味著這是同一個物件, equals 用來確定兩個物件內容相同。
如果 key 是基本資料型別,比如 int,那相同的值肯定是相等的,並且產生的 hashCode 也是一致的。
`String` 型別算是最常用的 key 型別了,我們都知道相同的字串產生的 hashCode 也是一樣的,並且字串可以用 equals 判斷相等。
但是如果用引用型別當做 key 呢,比如我定義了一個 `MoonKey` 作為 key 值型別
```java
public class MoonKey {
private String keyTile;
public String getKeyTile() {
return keyTile;
}
public void setKeyTile(String keyTile) {
this.keyTile = keyTile;
}
@Override
public boolean equals(Object o) {
if (this == o) return true;
if (o == null || getClass() != o.getClass()) return false;
MoonKey moonKey = (MoonKey) o;
return Objects.equals(keyTile, moonKey.keyTile);
}
}
```
然後用下面的程式碼進行兩次新增,你說 size 的長度是 1 還是 2 呢?
```java
Map m = new HashMap<>();
MoonKey moonKey = new MoonKey();
moonKey.setKeyTile("1");
MoonKey moonKey1 = new MoonKey();
moonKey1.setKeyTile("1");
m.put(moonKey, "1");
m.put(moonKey1, "2");
System.out.println(hash(moonKey));
System.out.println(hash(moonKey1));
System.out.println(m.size());
```
答案是 2 ,為什麼呢,因為 `MoonKey` 沒有重寫 `hashCode` 方法,導致 moonkey 和 moonKey1 的 hash 值不可能一樣,當不重寫 `hashCode` 方法時,預設繼承自 `Object`的 hashCode 方法,而每個 `Object`物件的 hash 值都是獨一無二的。
**劃重點**,正確的做法應該是加上 `hashCode`的重寫。
```java
@Override
public int hashCode() {
return Objects.hash(keyTile);
}
```
這也是為什麼要求重寫 `equals` 方法的同時,也必須重寫 `hashCode`方法的原因之一。 如果兩個物件通過呼叫equals方法是相等的,那麼這兩個物件呼叫hashCode方法必須返回相同的整數。有了這個基礎才能保證 `HashMap`或者`HashSet`的 key 唯一。
## 非執行緒安全
由於`HashMap`不是執行緒安全的,自然,`HashSet`也不是執行緒安全啦。在多執行緒、高併發環境中慎用,如果要用的話怎麼辦呢,不像 `HashMap`那樣有多執行緒版本的`ConcurrentHashMap`,不存在 ``ConcurrentHashSet`這種資料結構,如果想用的話要用下面這種方式。
```java
Set set = Collections.synchronizedSet(new HashSet());
```
或者使用 `ConcurrentHashMap.KeySetView`也可以,但是,這其實就不是 `HashSet`了,而是 `ConcurrentHashMap`的一個實現了 `Set`介面的靜態內部類,多執行緒情況下使用起來完全沒問題。
```java
ConcurrentHashMap.KeySetView keySetView = ConcurrentHashMap.newKeySet();
keySetView.add("a");
keySetView.add("b");
keySetView.add("c");
keySetView.add("a");
keySetView.forEach(System.out::println);
```
## LinkedHashSet
如果說 `HashSet`是套殼兒`HashMap`,那麼`LinkedHashSet`就是套殼兒`LinkedHashMap`。對比 `HashSet`,它的一個特點就是保證資料有序,插入的時候什麼順序,遍歷的時候就是什麼順序。
看一下它其中的無參建構函式。
```java
public LinkedHashSet() {
super(16, .75f, true);
}
```
`LinkedHashSet`繼承自 `HashSet`,所以 `super(16, .75f, true);`是呼叫了`HashSet`三個引數的建構函式。
```java
HashSet(int initialCapacity, float loadFactor, boolean dummy) {
map = new LinkedHashMap<>(initialCapacity, loadFactor);
}
```
這次不是 `new HashMap`了,而是 new 了一個 `LinkedHashMap`,這就是它能保證有序性的關鍵。`LinkedHashMap`用雙向連結串列的方式在 `HashMap`的基礎上額外儲存了鍵值對的插入順序。
`HashMap`中定義了下面這三個方法,這三個方法是在插入和刪除鍵值對的時候呼叫的方法,用來維護雙向連結串列,在`LinkedHashMap`中有具體的實現。
```java
// Callbacks to allow LinkedHashMap post-actions
void afterNodeAccess(Node p) { }
void afterNodeInsertion(boolean evict) { }
void afterNodeRemoval(Node p) { }
```
由於`LinkedHashMap`可以保證鍵值對順序,所以,用來實現簡單的 LRU 快取。
所以,如果你有場景既要保證元素無重複,又要保證元素有序,可以使用 `LinkedHashSet`。
## 最後
其實你掌握了 `HashMap`就掌握了 `HashSet`,它沒有什麼新東西,就是巧妙的利用了 `HashMap`而已,新不新不要緊,好用才是最重要的。
***
**壯士且慢,先給點個贊吧,總是被白嫖,身體吃不消!**
> **我是風箏,公眾號「古時的風箏」。一個兼具深度與廣度的程式設計師鼓勵師,一個本打算寫詩卻寫起了程式碼的田園碼農!你可選擇現在就關注我,或者看看歷史文章再關注也不遲。**
![](https://img2020.cnblogs.com/blog/273364/202007/273364-20200701104745099-9806635