高併發程式設計：解析HashMap

阿新 • • 發佈：2018-11-25

底層實現原理

在JDK1.8以前版本中，HashMap的實現是陣列+連結串列，它的缺點是即使雜湊函式選擇的再好，也很難達到元素百分百均勻分佈，而且當HashMap中有大量元素都存到同一個桶中時，這個桶會有一個很長的連結串列，此時遍歷的時間複雜度就是O(n)，當然這是最糟糕的情況。

在JDK1.8及以後的版本中引入了紅黑樹結構，HashMap的實現就變成了陣列+連結串列或陣列+紅黑樹。新增元素時，若桶中連結串列個數超過8，連結串列會轉換成紅黑樹；刪除元素、擴容時，若桶中結構為紅黑樹並且樹中元素個數較少時會進行修剪或直接還原成連結串列結構，以提高後續操作效能；遍歷、查詢時，由於使用紅黑樹結構，紅黑樹遍歷的時間複雜度為 O(logn)，所以效能得到提升。

HashMap在JDK1.8及以後的版本中引入了紅黑樹結構，若桶中連結串列元素個數大於等於8時，連結串列轉換成樹結構；若桶中連結串列元素個數小於等於6時，樹結構還原成連結串列。因為紅黑樹的平均查詢長度是log(n)，長度為8的時候，平均查詢長度為3，如果繼續使用連結串列，平均查詢長度為8/2=4，這才有轉換為樹的必要。連結串列長度如果是小於等於6，6/2=3，雖然速度也很快的，但是轉化為樹結構和生成樹的時間並不會太短。

選擇6和8，中間有個差值7可以有效防止連結串列和樹頻繁轉換。假設一下，如果設計成連結串列個數超過8則連結串列轉換成樹結構，連結串列個數小於8則樹結構轉換成連結串列，如果一個HashMap不停的插入、刪除元素，連結串列個數在8左右徘徊，就會頻繁的發生樹轉連結串列、連結串列轉樹，效率會很低。

死迴圈分析

在JDK1.8之前的版本中，HashMap的底層實現是陣列+連結串列。當呼叫HashMap的put方法新增元素時，如果新元素的hash值或key在原Map中不存在，會檢查容量size有沒有超過設定的threshold，如果超過則需要進行擴容，擴容的容量是原陣列的兩倍，具體程式碼如下：

void addEntry(int hash, K key, V value, int bucketIndex) {
        //檢查容量是否超過threshold
        if ((size >= threshold) && (null != table[bucketIndex])) {
            //擴容
            resize(2 * table.length);
            hash = (null != key) ? hash(key) : 0;
            bucketIndex = indexFor(hash, table.length);
        }
        createEntry(hash, key, value, bucketIndex);
    }

擴容就是新建Entry陣列，並將原Map中元素重新計算hash值，然後存到新陣列中，具體程式碼如下：

void resize(int newCapacity) {

        Entry[] oldTable = table;
        int oldCapacity = oldTable.length;
        if (oldCapacity == MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return;
        }
        //新陣列
        Entry[] newTable = new Entry[newCapacity];
        //原陣列元素轉存到新陣列中
        transfer(newTable, initHashSeedAsNeeded(newCapacity));
        //指向新陣列
        table = newTable;
        threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
    }

    void transfer(Entry[] newTable, boolean rehash) {
        int newCapacity = newTable.length;
        for (Entry<K,V> e : table) {
            while(null != e) {
                Entry<K,V> next = e.next;
                if (rehash) {
                    e.hash = null == e.key ? 0 : hash(e.key);
                }
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            }
        }
    }

假設一個HashMap的初始容量是4，使用預設負載因子0.75，有三個元素通過Hash演算法計算出的陣列下標都是2，但是key值都不同，分別是a1、a2、a3，HashMap內部儲存如下圖：

假設插入的第四個元素a4，通過Hash演算法計算出的陣列下標也是2，當插入時則需要擴容，此時有兩個執行緒T1、T2同時插入a4，則T1、T2同時進行擴容操作，它們各自新建了一個Entry陣列newTable。

T2執行緒執行到transfer方法的Entry<K,V> next = e.next;時被掛起，T1執行緒執行transfer方法後Entry陣列如下圖：

在T1執行緒沒返回新建Entry陣列之前，T2執行緒恢復，因為在T2掛起時，變數e指向的是a1，變數next指向的是a2，所以在T2恢復執行完transfer之後，Entry陣列如下圖：在此我向大家推薦一個架構學習交流裙。交流學習裙號：821169538，裡面會分享一些資深架構師錄製的視訊錄影

可以看到在T2執行完transfer方法後，a1元素和a2元素形成了迴圈引用，此時無論將T1的Entry陣列還是T2的Entry陣列返回作為擴容後的新陣列，都會存在這個環形連結串列，當呼叫get方法獲取該位置的元素時就會發生死迴圈，更嚴重會導致CPU佔用100%故障。

擴容解說

JDK8中HashMap擴容涉及到的載入因子和連結串列轉紅黑樹的知識點經常被作為面試問答題，下面對這兩個知識點進行小結。

連結串列轉紅黑樹為什麼選擇數字8

在JDK8及以後的版本中，HashMap引入了紅黑樹結構，其底層的資料結構變成了陣列+連結串列或陣列+紅黑樹。新增元素時，若桶中連結串列個數超過8，連結串列會轉換成紅黑樹。之前有寫過篇幅分析選擇數字8的原因，內容不夠嚴謹。最近重新翻了一下HashMap的原始碼，發現其原始碼中有這樣一段註釋：

Because TreeNodes are about twice the size of regular nodes, we use them only when bins contain enough nodes to warrant use (see TREEIFYTHRESHOLD). And when they become too small (due to removal or resizing) they are converted back to plain bins. In usages with well-distributed user hashCodes, tree bins are rarely used. Ideally, under random hashCodes, the frequency of nodes in bins follows a Poisson distribution (http://en.wikipedia.org/wiki/Poissondistribution) with a parameter of about 0.5 on average for the default resizing threshold of 0.75, although with a large variance because of resizing granularity. Ignoring variance, the expected occurrences of list size k are (exp(-pow(0.5, k) / factorial(k)). The first values are: 
0: 0.60653066 
1: 0.30326533 
2: 0.07581633 
3: 0.01263606 
4: 0.00157952 
5: 0.00015795 
6: 0.00001316 
7: 0.00000094 
8: 0.00000006 
more: less than 1 in ten million

翻譯過來大概的意思是：理想情況下使用隨機的雜湊碼，容器中節點分佈在hash桶中的頻率遵循泊松分佈，具體可以檢視泊松分佈，按照泊松分佈的計算公式計算出了桶中元素個數和概率的對照表，可以看到連結串列中元素個數為8時的概率已經非常小，再多的就更少了，所以原作者在選擇連結串列元素個數時選擇了8，是根據概率統計而選擇的。

預設載入因子為什麼選擇0.75

HashMap有兩個引數影響其效能：初始容量和載入因子。容量是雜湊表中桶的數量，初始容量只是雜湊表在建立時的容量。載入因子是雜湊表在其容量自動擴容之前可以達到多滿的一種度量。當雜湊表中的條目數超出了載入因子與當前容量的乘積時，則要對該雜湊表進行擴容、rehash操作（即重建內部資料結構），擴容後的雜湊表將具有兩倍的原容量。

通常，載入因子需要在時間和空間成本上尋求一種折衷。載入因子過高，例如為1，雖然減少了空間開銷，提高了空間利用率，但同時也增加了查詢時間成本；載入因子過低，例如0.5，雖然可以減少查詢時間成本，但是空間利用率很低，同時提高了rehash操作的次數。在設定初始容量時應該考慮到對映中所需的條目數及其載入因子，以便最大限度地減少rehash操作次數，所以，一般在使用HashMap時建議根據預估值設定初始容量，減少擴容操作。

選擇0.75作為預設的載入因子，完全是時間和空間成本上尋求的一種折衷選擇，至於為什麼不選擇0.5或0.8，筆者沒有找到官方的直接說明，在HashMap的原始碼註釋中也只是說是一種折中的選擇。

高併發程式設計：解析HashMap

底層實現原理在JDK1.8以前版本中，HashMap的實現是陣列+連結串列，它的缺點是即使雜湊函式選擇的再好，也很難達到元素百分百均勻分佈，而且當HashMap中有大量元素都存到同一個桶中時，這個桶會有一個很長的連結串列，此時遍歷的時間複雜度就是O(n)，當然這是最糟糕的情況。在J

高併發程式設計：同步類容器的問題

同步容器類存在的問題同步類容器都是執行緒安全的，但在某些場景下可能需要加鎖來保護複合操作，在複合操作，如：迭代、跳轉已經條件運算中，這些操作可能會表現出意外的行為，最經典的便是ConcurrentModificationException，原因是當容器迭代的過程中，被併發的修改了內

高併發程式設計：併發Queue介面

佇列是一種先進先出或者後進後出的資料結構。在此我們模擬一下佇列這種資料結構: MyQueue.java定義如下: public class MyQueue { //佇列的容器 private LinkedList<Object> list = new L

高併發程式設計：初識併發容器類

JDK5.0以後提供了多種併發類容器來替代同步容器類從而改善效能。同步類容器狀態都是序列化的。他們雖然實現了執行緒安全，但是嚴重降低了併發性，在多執行緒環境時，嚴重降低了應用程式的吞吐量。 ConcurrentMap介面 ConcurrentMap介面有兩個重要的實現類：Conc

高併發程式設計：執行緒安全和ThreadLocal

執行緒安全的概念：當多個執行緒訪問某一個類（物件或方法）時，這個類始終都能表現出正確的行為，那麼這個類（物件或方法）就是執行緒安全的。執行緒安全說的可能比較抽象，下面就以一個簡單的例子來看看什麼是執行緒安全問題。 public class MyThread impleme

高併發程式設計：Volatile關鍵字和Atomic類

在接觸併發程式設計之前我對volatile關鍵字是沒有什麼映像的，這個關鍵字解決了什麼問題呢？讓我們先來看一個示例： public class UseVolatitle extends Thread { private boolean isrunning

Java高併發程式設計：執行緒池

這裡首先介紹了java5中的併發的小工具包：java.util.concurrent.atomic，然後介紹了執行緒池的概念，對使用java5的方式建立不同形式的執行緒進行了演示，之後介紹了兩個物件：Callable和Future，用於獲取執行緒執行後的結果，

Java高併發程式設計：Copy-On-Write容器

Copy-On-Write簡稱COW，是一種用於程式設計中的優化策略。其基本思路是，從一開始大家都在共享同一個內容，當某個人想要修改這個內容的時候，才會真正把內容Copy出去形成一個新的內容然後再改，這是一種延時懶惰策略。從JDK1.5開始Java併發包裡提供了兩個使用CopyOnWrite

Java高併發程式設計：活躍性危險

Java高併發程式中，不得不出現資源競爭以及一些其他嚴重的問題，比如死鎖、執行緒飢餓、響應性問題和活鎖問題。在安全性與活躍性之間通常存在依賴，我們使用加鎖機制來確保執行緒安全，但是如果過度地使用加鎖，則可能導致鎖順序死鎖（Lock-Ordering DeadLock）。 1.死鎖

Java高併發程式設計：取消和關閉

Java沒有提供任何機制來安全地終止執行緒，但是它提供了中斷(Interruption).這是一種協作機制，能夠使一個執行緒終止另一個執行緒當前的工作。在對一個執行緒物件呼叫Thread.interrupted()方法之後，一般情況下對這個執行緒不會產生任何影響。因為

Java高併發程式設計：使用JDK5中同步技術的3個面試題

第一題：現有的程式程式碼模擬產生了16個日誌物件，並且需要執行16秒才能列印完這些日誌，請在程式中增加4個執行緒去呼叫parseLog()方法來分頭列印這16個日誌物件，程式只需要執行4秒即可列印完這些日誌物件。 public class Test {

Java高併發程式設計：同步工具類

內容摘要這裡主要介紹了java5中執行緒鎖技術以外的其他同步工具，首先介紹Semaphore：一個計數訊號量。用於控制同時訪問資源的執行緒個數，CyclicBarrier同步輔助類：從字面意思看是路障，這裡用於執行緒之間的相互等待，到達某點後，繼續向下執行。

Java高併發程式設計：HandlerThread

1. HandlerThread的使用繼承自Thread，在run()方法中，執行了Looper.prepare()和Looper.loop()，和handler結合使用，實現後臺輪詢執行緒功能 start() quit() getLooper()

高併發程式設計系列：4種常用Java執行緒鎖的特點，效能比較、使用場景

高併發程式設計系列：4種常用Java執行緒鎖的特點，效能比較、使用場景 http://youzhixueyuan.com/4-kinds-of-java-thread-locks.html 在Java併發程式設計中，經常遇到多個執行緒訪問同一個共享資源，這時候作為開發者

Java併發程式設計：volatile關鍵字解析--轉自：http://www.cnblogs.com/dolphin0520/p/3920373.html

Java併發程式設計：volatile關鍵字解析　　 volatile這個關鍵字可能很多朋友都聽說過，或許也都用過。在Java 5之前，它是一個備受爭議的關鍵字，因為在程式中使用它往往會導致出人意料的結果。在Java 5之後，volatile關鍵字才得以重獲生機。　　volatile關鍵

高併發程式設計thirft原始碼解析

我用的thrift模式：網路程式設計模式 arg.selectorThreads(Integer.parseInt(mProp.get("LogServerSelectorThread").toString()));這步驟是啟動了多個執行緒，每個執行緒裡面有個bocking queue佇列，佇列元素是s

高併發程式設計thirft原始碼解析之Selector

Selector作用關於套接字程式設計，有一套經典的IO模型需要提前介紹一下：. 同步IO模型：阻塞式IO模型非阻塞式IO模型 IO複用模型使用selector 訊號驅動式IO模型非同步IO模型使用aio_read thri

Java併發（十八）：阻塞佇列BlockingQueue BlockingQueue（阻塞佇列）詳解二叉堆(一)之圖文解析和 C語言的實現多執行緒程式設計：阻塞、併發佇列的使用總結 Java併發程式設計：阻塞佇列 java阻塞佇列 BlockingQueue（阻塞佇列）詳解

阻塞佇列（BlockingQueue）是一個支援兩個附加操作的佇列。這兩個附加的操作是：在佇列為空時，獲取元素的執行緒會等待佇列變為非空。當佇列滿時，儲存元素的執行緒會等待佇列可用。阻塞佇列常用於生產者和消費者的場景，生產者是往佇列裡新增元素的執行緒，消費者是從佇列裡拿元素的執行緒。阻塞佇列就是生產者

JAVA併發程式設計：volatile關鍵字深入解析

生活天氣賊好的一個禮拜二。生活就是生下來活下去。簡述 volatile是JAVA中的一個關鍵字，在JDK1.5以前據說飽受爭議，在程式中使用經常出現一些出入意料的結果。這個麼，從volatile的翻譯就能看出來，就是不穩定的意思嘛。 JDK1.5以後，volati

JAVA併發程式設計：synchronized關鍵字深入解析

生活天氣賊好的一個禮拜二的吃完晚飯的晚上。他們去聽課了。不想寫程式碼。我在這看點東西吧~ 閒談對於synchronized的記憶是最早對同步的概念。那時候聊到同步，就會說到StringBuilder和StringBuffer，裡面的方法都是一樣的，但是StringBu

高併發程式設計：解析HashMap

底層實現原理

死迴圈分析

擴容解說

連結串列轉紅黑樹為什麼選擇數字8

預設載入因子為什麼選擇0.75

相關推薦