1. 程式人生 > 其它 >「入門篇」初識JVM (下) - JMM

「入門篇」初識JVM (下) - JMM

JMM - Java記憶體模型引入

JMM引入

從堆疊說起

JVM內部使用的Java記憶體模型線上程棧和堆之間劃分記憶體。 此圖從邏輯角度說明了Java記憶體模型:

堆疊裡面放了什麼?

執行緒堆疊還包含正在執行的每個方法的所有區域性變數(呼叫堆疊上的所有方法)。 執行緒只能訪問它自己的執行緒堆疊。 由執行緒建立的區域性變數對於建立它的執行緒以外的所有其他執行緒是不可見的。 即使兩個執行緒正在執行完全相同的程式碼,兩個執行緒仍將在每個自己的執行緒堆疊中建立該程式碼的區域性變數。 因此,每個執行緒都有自己的每個區域性變數的版本。

基本型別的所有區域性變數(boolean,byte,short,char,int,long,float,double)完全儲存線上程堆疊中,因此對其他執行緒不可見。 一個執行緒可以將一個基本型別變數的副本傳遞給另一個執行緒,但它不能共享原始區域性變數本身。

堆包含了在Java應用程式中建立的所有物件,無論建立該物件的執行緒是什麼。 這包括基本型別的包裝類(例如Byte,Integer,Long等)。 無論是建立物件並將其分配給區域性變數,還是建立為另一個物件的成員變數,該物件仍然儲存在堆上。

區域性變數可以是基本型別,在這種情況下,它完全保留線上程堆疊上。

區域性變數也可以是物件的引用。 在這種情況下,引用(區域性變數)儲存線上程堆疊中,但是物件本身儲存在堆(Heap)上。

物件的成員變數與物件本身一起儲存在堆上。 當成員變數是基本型別時,以及它是物件的引用時都是如此。

靜態類變數也與類定義一起儲存在堆上。

執行緒棧如何訪問堆上物件?

所有具有物件引用的執行緒都可以訪問堆上的物件。 當一個執行緒有權訪問一個物件時,它也可以訪問該物件的成員變數。 如果兩個執行緒同時在同一個物件上呼叫一個方法,它們都可以訪問該物件的成員變數,但每個執行緒都有自己的區域性變數副本。

兩個執行緒有一組區域性變數。 其中一個區域性變數(區域性變數2)指向堆上的共享物件(物件3)。 兩個執行緒各自對同一物件具有不同的引用。 它們的引用是區域性變數,因此儲存在每個執行緒的執行緒堆疊中(在每個執行緒堆疊上)。 但是,這兩個不同的引用指向堆上的同一個物件。

注意共享物件(物件3)如何將物件2和物件4作為成員變數引用(由物件3到物件2和物件4的箭頭所示)。 通過物件3中的這些成員變數引用,兩個執行緒可以訪問物件2和物件4.

該圖還顯示了一個區域性變數,該變數指向堆上的兩個不同物件。 在這種情況下,引用指向兩個不同的物件(物件1和物件5),而不是同一個物件。 理論上,如果兩個執行緒都引用了兩個物件,則兩個執行緒都可以訪問物件1和物件5。 但是在上圖中,每個執行緒只引用了兩個物件中的一個。

執行緒棧訪問堆示例

那麼,什麼樣的Java程式碼可以導致上面的記憶體圖? 好吧,程式碼就像下面的程式碼一樣簡單:

檢視程式碼
public class MyRunnable implements Runnable() {

    public void run() {
        methodOne();
    }

    public void methodOne() {
        int localVariable1 = 45;

        MySharedObject localVariable2 =
            MySharedObject.sharedInstance;

        //... do more with local variables.

        methodTwo();
    }

    public void methodTwo() {
        Integer localVariable1 = new Integer(99);

        //... do more with local variable.
    }
}

public class MySharedObject {

    //static variable pointing to instance of MySharedObject

    public static final MySharedObject sharedInstance =
        new MySharedObject();


    //member variables pointing to two objects on the heap

    public Integer object2 = new Integer(22);
    public Integer object4 = new Integer(44);

    public long member1 = 12345;
    public long member1 = 67890;
}

如果兩個執行緒正在執行run()方法,則前面顯示的圖表將是結果。 run()方法呼叫methodOne(),methodOne()呼叫methodTwo()。

methodOne()宣告一個區域性基本型別變數(型別為int的localVariable1)和一個區域性變數,它是一個物件引用(localVariable2)。

執行methodOne()的每個執行緒將在各自的執行緒堆疊上建立自己的localVariable1和localVariable2副本。 localVariable1變數將完全相互分離,只存在於每個執行緒的執行緒堆疊中。 一個執行緒無法看到另一個執行緒對其localVariable1副本所做的更改。

執行methodOne()的每個執行緒也將建立自己的localVariable2副本。 但是,localVariable2的兩個不同副本最終都指向堆上的同一個物件。 程式碼將localVariable2設定為指向靜態變數引用的物件。 靜態變數只有一個副本,此副本儲存在堆上。 因此,localVariable2的兩個副本最終都指向靜態變數指向的MySharedObject的同一個例項。 MySharedObject例項也儲存在堆上。 它對應於上圖中的物件3。

注意MySharedObject類還包含兩個成員變數。 成員變數本身與物件一起儲存在堆上。 兩個成員變數指向另外兩個Integer物件。 這些Integer物件對應於上圖中的Object 2和Object 4。

另請注意methodTwo()如何建立名為localVariable1的區域性變數。 此區域性變數是對Integer物件的物件引用。 該方法將localVariable1引用設定為指向新的Integer例項。 localVariable1引用將儲存在執行methodTwo()的每個執行緒的一個副本中。 例項化的兩個Integer物件將儲存在堆上,但由於該方法每次執行該方法時都會建立一個新的Integer物件,因此執行此方法的兩個執行緒將建立單獨的Integer例項。 在methodTwo()中建立的Integer物件對應於上圖中的Object 1和Object 5。

另請注意型別為long的MySharedObject類中的兩個成員變數,它們是基本型別。 由於這些變數是成員變數,因此它們仍與物件一起儲存在堆上。 只有區域性變數儲存線上程堆疊中。

JMM與硬體記憶體結構關係

硬體記憶體結構簡介

現代硬體記憶體架構與內部Java記憶體模型略有不同。 瞭解硬體記憶體架構也很重要,以瞭解Java記憶體模型如何與其一起工作。 本節介紹了常見的硬體記憶體架構,後面的部分將介紹Java記憶體模型如何與其配合使用。

這是現代計算機硬體架構的簡化圖:

現代計算機通常有2個或更多CPU。 其中一些CPU也可能有多個核心。 關鍵是,在具有2個或更多CPU的現代計算機上,可以同時執行多個執行緒。 每個CPU都能夠在任何給定時間執行一個執行緒。 這意味著如果您的Java應用程式是多執行緒的,執行緒真的在可能同時執行.

每個CPU基本上都包含一組在CPU記憶體中的暫存器。 CPU可以在這些暫存器上執行的操作比在主儲存器中對變數執行的操作快得多。 這是因為CPU可以比訪問主儲存器更快地訪問這些暫存器。

每個CPU還可以具有CPU快取記憶體儲存器層。 事實上,大多數現代CPU都有一些大小的快取儲存層。 CPU可以比主儲存器更快地訪問其快取記憶體儲存器,但通常不會像訪問其內部暫存器那樣快。 因此,CPU快取記憶體儲存器介於內部暫存器和主儲存器的速度之間。 某些CPU可能有多個快取層(級別1和級別2),但要了解Java記憶體模型如何與記憶體互動,這一點並不重要。 重要的是要知道CPU可以有某種快取儲存層。

計算機還包含主儲存區(RAM)。 所有CPU都可以訪問主記憶體。 主儲存區通常比CPU的快取記憶體儲存器大得多。同時訪問速度也就較慢.

通常,當CPU需要訪問主儲存器時,它會將部分主儲存器讀入其CPU快取。 它甚至可以將部分快取讀入其內部暫存器,然後對其執行操作。 當CPU需要將結果寫回主儲存器時,它會將值從其內部暫存器重新整理到高速緩衝儲存器,並在某些時候將值重新整理回主儲存器。

JMM與硬體記憶體連線 - 引入

如前所述,Java記憶體模型和硬體記憶體架構是不同的。 硬體記憶體架構不區分執行緒堆疊和堆。 在硬體上,執行緒堆疊和堆都位於主儲存器中。 執行緒堆疊和堆的一部分有時可能存在於CPU快取記憶體和內部CPU暫存器中。 這在圖中說明:

當物件和變數可以儲存在計算機的各種不同儲存區域中時,可能會出現某些問題。 兩個主要問題是:

  • Visibility of thread updates (writes) to shared variables.  執行緒更新(寫入)到共享變數的可見性。
  • Race conditions when reading, checking and writing shared variables.   讀取、檢查和寫入共享變數時的競爭條件。

以下各節將解釋這兩個問題。

JMM與硬體記憶體連線 - 物件共享後的可見性

如果兩個或多個執行緒共享一個物件,而沒有正確使用volatile宣告或同步,則一個執行緒對共享物件的更新可能對其他執行緒不可見。

想象一下,共享物件最初儲存在主儲存器中。 然後,在CPU上執行的執行緒將共享物件讀入其CPU快取中。 它在那裡對共享物件進行了更改。 只要CPU快取尚未重新整理回主記憶體,共享物件的更改版本對於在其他CPU上執行的執行緒是不可見的。 這樣,每個執行緒最終都可能擁有自己的共享物件副本,每個副本都位於不同的CPU快取中。

下圖描繪了該情況。 在左CPU上執行的一個執行緒將共享物件複製到其CPU快取中,並將其count變數更改為2.對於在右邊的CPU上執行的其他執行緒,此更改不可見,因為計數更新尚未重新整理回主記憶體中.

要解決此問題,您可以使用Java的volatile關鍵字。 volatile關鍵字可以確保直接從主記憶體讀取給定變數,並在更新時始終寫回主記憶體。

JMM與硬體記憶體連線 - 競態條件

如果兩個或多個執行緒共享一個物件,並且多個執行緒更新該共享物件中的變數,則可能會出現競態。

想象一下,如果執行緒A將共享物件的變數計數讀入其CPU快取中。 想象一下,執行緒B也做同樣的事情,但是進入不同的CPU快取。 現在,執行緒A將一個新增到count,而執行緒B執行相同的操作。 現在var1已經增加了兩次,每個CPU快取一次。

如果這些增量是按先後順序執行的,則變數計數將增加兩次並將原始值+ 2寫回主儲存器。

但是,兩個增量同時執行而沒有適當的同步。 無論執行緒A和B中哪一個將其更新後的計數版本寫回主儲存器,更新的值將僅比原始值高1,儘管有兩個增量。

該圖說明了如上所述的競爭條件問題的發生:

要解決此問題,您可以使用Java synchronized塊。 同步塊保證在任何給定時間只有一個執行緒可以進入程式碼的給定關鍵部分。 同步塊還保證在同步塊內訪問的所有變數都將從主儲存器中讀入,當執行緒退出同步塊時,所有更新的變數將再次重新整理回主儲存器,無論變數是不是宣告為volatile

檢視程式碼
// 不加 volatile 程式就會死迴圈!
// 加 volatile 可以保證可見性
private volatile static int num = 0;
// 保證可見性
public static void testVolatile1(){
    new Thread(()->{ // 執行緒 1 對主記憶體的變化不知道的
        while(num == 0){

        }
    }).start();
    try {
        TimeUnit.SECONDS.sleep(1);
    } catch (InterruptedException e) {
        e.printStackTrace();
    }
    num = 1;
    System.out.println(num);
}

 結果

Java記憶體模型詳解

基礎

併發程式設計模型的分類

在併發程式設計中,我們需要處理兩個關鍵問題:執行緒之間如何通訊及執行緒之間如何同步(這裡的執行緒是指併發執行的活動實體)。通訊是指執行緒之間以何種機制來交換資訊。在指令式程式設計中,執行緒之間的通訊機制有兩種:共享記憶體和訊息傳遞

併發模型

  • 共享記憶體:執行緒之間共享程式的公共狀態,執行緒之間通過寫 - 讀記憶體中的公共狀態來隱式進行通訊。
  • 訊息傳遞:執行緒之間沒有公共狀態,執行緒之間必須通過明確的傳送訊息來顯式進行通訊。

同步是指程式用於控制不同執行緒之間操作發生相對順序的機制。

  • 在共享記憶體併發模型裡,同步是顯式進行的。程式設計師必須顯式指定某個方法或某段程式碼需要線上程之間互斥執行。
  • 在訊息傳遞的併發模型裡,由於訊息的傳送必須在訊息的接收之前,因此同步是隱式進行的。

Java 的併發採用的是共享記憶體模型,Java 執行緒之間的通訊總是隱式進行,整個通訊過程對程式設計師完全透明。

如果編寫多執行緒程式的 Java 程式設計師不理解隱式進行的執行緒之間通訊的工作機制,很可能會遇到各種奇怪的記憶體可見性問題。

Java 記憶體模型的抽象

在 java 中,所有例項域、靜態域和陣列元素儲存在堆記憶體中,堆記憶體線上程之間共享(本文使用“共享變數”這個術語代指例項域,靜態域和陣列元素)。區域性變數(Local variables),方法定義引數(java 語言規範稱之為 formal method parameters)和異常處理器引數(exception handler parameters)不會線上程之間共享,它們不會有記憶體可見性問題,也不受記憶體模型的影響。

Java 執行緒之間的通訊由 Java 記憶體模型(本文簡稱為 JMM)控制,JMM 決定一個執行緒對共享變數的寫入何時對另一個執行緒可見。從抽象的角度來看,JMM 定義了執行緒和主記憶體之間的抽象關係:執行緒之間的共享變數儲存在主記憶體(main memory)中,每個執行緒都有一個私有的本地記憶體(local memory),本地記憶體中儲存了該執行緒以讀 / 寫共享變數的副本。本地記憶體是 JMM 的一個抽象概念,並不真實存在。它涵蓋了快取,寫緩衝區,暫存器以及其他的硬體和編譯器優化。Java 記憶體模型的抽象示意圖如下:

從上圖來看,執行緒 A 與執行緒 B 之間如要通訊的話,必須要經歷下面 2 個步驟:

  • 首先,執行緒 A 把本地記憶體 A 中更新過的共享變數重新整理到主記憶體中去。
  • 然後,執行緒 B 到主記憶體中去讀取執行緒 A 之前已更新過的共享變數。

下面通過示意圖來說明這兩個步驟:

如上圖所示,本地記憶體 A 和 B 有主記憶體中共享變數 x 的副本。假設初始時,這三個記憶體中的 x 值都為 0。執行緒 A 在執行時,把更新後的 x 值(假設值為 1)臨時存放在自己的本地記憶體 A 中。當執行緒 A 和執行緒 B 需要通訊時,執行緒 A 首先會把自己本地記憶體中修改後的 x 值重新整理到主記憶體中,此時主記憶體中的 x 值變為了 1。隨後,執行緒 B 到主記憶體中去讀取執行緒 A 更新後的 x 值,此時執行緒 B 的本地記憶體的 x 值也變為了 1。

從整體來看,這兩個步驟實質上是執行緒 A 在向執行緒 B 傳送訊息,而且這個通訊過程必須要經過主記憶體。JMM 通過控制主記憶體與每個執行緒的本地記憶體之間的互動,來為 java 程式設計師提供記憶體可見性保證。

重排序

在執行程式時為了提高效能,編譯器和處理器常常會對指令做重排序。重排序分三種類型:

  • 編譯器優化的重排序。編譯器在不改變單執行緒程式語義的前提下,可以重新安排語句的執行順序。
  • 指令級並行的重排序。現代處理器採用了指令級並行技術(Instruction-Level Parallelism, ILP)來將多條指令重疊執行。如果不存在資料依賴性,處理器可以改變語句對應機器指令的執行順序。
  • 記憶體系統的重排序。由於處理器使用快取和讀 / 寫緩衝區,這使得載入和儲存操作看上去可能是在亂序執行。

從 java 原始碼到最終實際執行的指令序列,會分別經歷下面三種重排序:

上述的 1 屬於編譯器重排序,2 和 3 屬於處理器重排序。這些重排序都可能會導致多執行緒程式出現記憶體可見性問題。對於編譯器,JMM 的編譯器重排序規則會禁止特定型別的編譯器重排序(不是所有的編譯器重排序都要禁止)。對於處理器重排序,JMM 的處理器重排序規則會要求 java 編譯器在生成指令序列時,插入特定型別的記憶體屏障(memory barriers,intel 稱之為 memory fence)指令,通過記憶體屏障指令來禁止特定型別的處理器重排序(不是所有的處理器重排序都要禁止)。

JMM 屬於語言級的記憶體模型,它確保在不同的編譯器和不同的處理器平臺之上,通過禁止特定型別的編譯器重排序和處理器重排序,為程式設計師提供一致的記憶體可見性保證。

處理器重排序與記憶體屏障指令

現代的處理器使用寫緩衝區來臨時儲存向記憶體寫入的資料。寫緩衝區可以保證指令流水線持續執行,它可以避免由於處理器停頓下來等待向記憶體寫入資料而產生的延遲。同時,通過以批處理的方式重新整理寫緩衝區,以及合併寫緩衝區中對同一記憶體地址的多次寫,可以減少對記憶體匯流排的佔用。雖然寫緩衝區有這麼多好處,但每個處理器上的寫緩衝區,僅僅對它所在的處理器可見。這個特性會對記憶體操作的執行順序產生重要的影響:處理器對記憶體的讀 / 寫操作的執行順序,不一定與記憶體實際發生的讀 / 寫操作順序一致!為了具體說明,請看下面示例:

示例
// Processor A
a = 1; //A1  
x = b; //A2

// Processor B
b = 2; //B1  
y = a; //B2

// 初始狀態:a = b = 0;處理器允許執行後得到結果:x = y = 0

假設處理器 A 和處理器 B 按程式的順序並行執行記憶體訪問,最終卻可能得到 x = y = 0 的結果。具體的原因如下圖所示:

這裡處理器 A 和處理器 B 可以同時把共享變數寫入自己的寫緩衝區(A1,B1),然後從記憶體中讀取另一個共享變數(A2,B2),最後才把自己寫快取區中儲存的髒資料重新整理到記憶體中(A3,B3)。當以這種時序執行時,程式就可以得到 x = y = 0 的結果。

從記憶體操作實際發生的順序來看,直到處理器 A 執行 A3 來重新整理自己的寫快取區,寫操作 A1 才算真正執行了。雖然處理器 A 執行記憶體操作的順序為:A1->A2,但記憶體操作實際發生的順序卻是:A2->A1。此時,處理器 A 的記憶體操作順序被重排序了(處理器 B 的情況和處理器 A 一樣,這裡就不贅述了)。

這裡的關鍵是,由於寫緩衝區僅對自己的處理器可見,它會導致處理器執行記憶體操作的順序可能會與記憶體實際的操作執行順序不一致。由於現代的處理器都會使用寫緩衝區,因此現代的處理器都會允許對寫 - 讀操做重排序。

下面是常見處理器允許的重排序型別的列表:

  Load-Load Load-Store Store-Store Store-Load 資料依賴
sparc-TSO N N N Y N
x86 N N N Y N
ia64 Y Y Y Y N
PowerPC Y Y Y Y N

上表單元格中的“N”表示處理器不允許兩個操作重排序,“Y”表示允許重排序。

從上表我們可以看出:常見的處理器都允許 Store-Load 重排序;常見的處理器都不允許對存在資料依賴的操作做重排序。sparc-TSO 和 x86 擁有相對較強的處理器記憶體模型,它們僅允許對寫 - 讀操作做重排序(因為它們都使用了寫緩衝區)。

  • ※注 1:sparc-TSO 是指以 TSO(Total Store Order) 記憶體模型執行時,sparc 處理器的特性。
  • ※注 2:上表中的 x86 包括 x64 及 AMD64。
  • ※注 3:由於 ARM 處理器的記憶體模型與 PowerPC 處理器的記憶體模型非常類似,本文將忽略它。
  • ※注 4:資料依賴性後文會專門說明。

為了保證記憶體可見性,java 編譯器在生成指令序列的適當位置會插入記憶體屏障指令來禁止特定型別的處理器重排序。JMM 把記憶體屏障指令分為下列四類:

屏障型別 指令示例 說明
LoadLoad Barriers Load1; LoadLoad; Load2 確保 Load1 資料的裝載,之前於 Load2 及所有後續裝載指令的裝載。
StoreStore Barriers Store1; StoreStore;Store2 確保 Store1 資料對其他處理器可見(重新整理到記憶體),之前於 Store2 及所有後續儲存指令的儲存。
LoadStore Barriers Load1; LoadStore; Store2 確保 Load1 資料裝載,之前於 Store2 及所有後續的儲存指令重新整理到記憶體。
StoreLoad Barriers Store1; StoreLoad; Load2 確保 Store1 資料對其他處理器變得可見(指重新整理到記憶體),之前於 Load2 及所有後續裝載指令的裝載。

StoreLoad Barriers 會使該屏障之前的所有記憶體訪問指令(儲存和裝載指令)完成之後,才執行該屏障之後的記憶體訪問指令。

StoreLoad Barriers 是一個“全能型”的屏障,它同時具有其他三個屏障的效果。現代的多處理器大都支援該屏障(其他型別的屏障不一定被所有處理器支援)。執行該屏障開銷會很昂貴,因為當前處理器通常要把寫緩衝區中的資料全部重新整理到記憶體中(buffer fully flush)。

happens-before

從 JDK5 開始,java 使用新的 JSR -133 記憶體模型(本文除非特別說明,針對的都是 JSR- 133 記憶體模型)。JSR-133 提出了 happens-before 的概念,通過這個概念來闡述操作之間的記憶體可見性。如果一個操作執行的結果需要對另一個操作可見,那麼這兩個操作之間必須存在 happens-before 關係。這裡提到的兩個操作既可以是在一個執行緒之內,也可以是在不同執行緒之間。 與程式設計師密切相關的 happens-before 規則如下:

  • 程式順序規則:一個執行緒中的每個操作,happens- before 於該執行緒中的任意後續操作。
  • 監視器鎖規則:對一個監視器鎖的解鎖,happens- before 於隨後對這個監視器鎖的加鎖。
  • volatile 變數規則:對一個 volatile 域的寫,happens- before 於任意後續對這個 volatile 域的讀。
  • 傳遞性:如果 A happens- before B,且 B happens- before C,那麼 A happens- before C。

注意,兩個操作之間具有 happens-before 關係,並不意味著前一個操作必須要在後一個操作之前執行!happens-before 僅僅要求前一個操作(執行的結果)對後一個操作可見,且前一個操作按順序排在第二個操作之前(the first is visible to and ordered before the second)。happens- before 的定義很微妙,後文會具體說明 happens-before 為什麼要這麼定義。

happens-before 與 JMM 的關係如下圖所示:

如上圖所示,一個 happens-before 規則通常對應於多個編譯器重排序規則和處理器重排序規則。對於 java 程式設計師來說,happens-before 規則簡單易懂,它避免程式設計師為了理解 JMM 提供的記憶體可見性保證而去學習複雜的重排序規則以及這些規則的具體實現。

重排序

資料依賴性

如果兩個操作訪問同一個變數,且這兩個操作中有一個為寫操作,此時這兩個操作之間就存在資料依賴性。資料依賴分下列三種類型:

名稱 程式碼示例 說明
寫後讀 a = 1;b = a; 寫一個變數之後,再讀這個位置。
寫後寫 a = 1;a = 2; 寫一個變數之後,再寫這個變數。
讀後寫 a = b;b = 1; 讀一個變數之後,再寫這個變數。

上面三種情況,只要重排序兩個操作的執行順序,程式的執行結果將會被改變。

前面提到過,編譯器和處理器可能會對操作做重排序。編譯器和處理器在重排序時,會遵守資料依賴性,編譯器和處理器不會改變存在資料依賴關係的兩個操作的執行順序。

注意,這裡所說的資料依賴性僅針對單個處理器中執行的指令序列和單個執行緒中執行的操作,不同處理器之間和不同執行緒之間的資料依賴性不被編譯器和處理器考慮。

as-if-serial 語義

as-if-serial 語義的意思指:不管怎麼重排序(編譯器和處理器為了提高並行度),(單執行緒)程式的執行結果不能被改變。編譯器,runtime 和處理器都必須遵守 as-if-serial 語義。

為了遵守 as-if-serial 語義,編譯器和處理器不會對存在資料依賴關係的操作做重排序,因為這種重排序會改變執行結果。但是,如果操作之間不存在資料依賴關係,這些操作可能被編譯器和處理器重排序。為了具體說明,請看下面計算圓面積的程式碼示例:

double pi  = 3.14;    //A
double r   = 1.0;     //B
double area = pi * r * r; //C

上面三個操作的資料依賴關係如下圖所示:

如上圖所示,A 和 C 之間存在資料依賴關係,同時 B 和 C 之間也存在資料依賴關係。因此在最終執行的指令序列中,C 不能被重排序到 A 和 B 的前面(C 排到 A 和 B 的前面,程式的結果將會被改變)。但 A 和 B 之間沒有資料依賴關係,編譯器和處理器可以重排序 A 和 B 之間的執行順序。下圖是該程式的兩種執行順序:

as-if-serial 語義把單執行緒程式保護了起來,遵守 as-if-serial 語義的編譯器,runtime 和處理器共同為編寫單執行緒程式的程式設計師建立了一個幻覺:單執行緒程式是按程式的順序來執行的。as-if-serial 語義使單執行緒程式設計師無需擔心重排序會干擾他們,也無需擔心記憶體可見性問題

程式順序規則

根據 happens- before 的程式順序規則,上面計算圓的面積的示例程式碼存在三個 happens- before 關係:

  • A happens- before B;
  • B happens- before C;
  • A happens- before C;

這裡的第 3 個 happens- before 關係,是根據 happens- before 的傳遞性推匯出來的。

這裡 A happens- before B,但實際執行時 B 卻可以排在 A 之前執行(看上面的重排序後的執行順序)。在第一章提到過,如果 A happens- before B,JMM 並不要求 A 一定要在 B 之前執行。JMM 僅僅要求前一個操作(執行的結果)對後一個操作可見,且前一個操作按順序排在第二個操作之前。這裡操作 A 的執行結果不需要對操作 B 可見;而且重排序操作 A 和操作 B 後的執行結果,與操作 A 和操作 B 按 happens- before 順序執行的結果一致。在這種情況下,JMM 會認為這種重排序並不非法(not illegal),JMM 允許這種重排序。

在計算機中,軟體技術和硬體技術有一個共同的目標:在不改變程式執行結果的前提下,儘可能的開發並行度。編譯器和處理器遵從這一目標,從 happens- before 的定義我們可以看出,JMM 同樣遵從這一目標。

重排序對多執行緒的影響

現在讓我們來看看,重排序是否會改變多執行緒程式的執行結果。請看下面的示例程式碼:

檢視程式碼
class ReorderExample {
    int a = 0;
    boolean flag = false;

    public void writer() {
        a = 1;                   //1
        flag = true;             //2
    }

    Public void reader() {
        if (flag) {                //3
            int i =  a * a;        //4
            ……
        }
    }
}

flag 變數是個標記,用來標識變數 a 是否已被寫入。這裡假設有兩個執行緒 A 和 B,A 首先執行 writer() 方法,隨後 B 執行緒接著執行 reader() 方法。執行緒 B 在執行操作 4 時,能否看到執行緒 A 在操作 1 對共享變數 a 的寫入?

答案是:不一定能看到。

由於操作 1 和操作 2 沒有資料依賴關係,編譯器和處理器可以對這兩個操作重排序;同樣,操作 3 和操作 4 沒有資料依賴關係,編譯器和處理器也可以對這兩個操作重排序。讓我們先來看看,當操作 1 和操作 2 重排序時,可能會產生什麼效果? 請看下面的程式執行時序圖:

如上圖所示,操作 1 和操作 2 做了重排序。程式執行時,執行緒 A 首先寫標記變數 flag,隨後執行緒 B 讀這個變數。由於條件判斷為真,執行緒 B 將讀取變數 a。此時,變數 a 還根本沒有被執行緒 A 寫入,在這裡多執行緒程式的語義被重排序破壞了!

※注:本文統一用紅色的虛箭線表示錯誤的讀操作,用綠色的虛箭線表示正確的讀操作。

下面再讓我們看看,當操作 3 和操作 4 重排序時會產生什麼效果(藉助這個重排序,可以順便說明控制依賴性)。下面是操作 3 和操作 4 重排序後,程式的執行時序圖:

在程式中,操作 3 和操作 4 存在控制依賴關係。當代碼中存在控制依賴性時,會影響指令序列執行的並行度。為此,編譯器和處理器會採用猜測(Speculation)執行來克服控制相關性對並行度的影響。以處理器的猜測執行為例,執行執行緒 B 的處理器可以提前讀取並計算 a*a,然後把計算結果臨時儲存到一個名為重排序緩衝(reorder buffer ROB)的硬體快取中。當接下來操作 3 的條件判斷為真時,就把該計算結果寫入變數 i 中。

從圖中我們可以看出,猜測執行實質上對操作 3 和 4 做了重排序。重排序在這裡破壞了多執行緒程式的語義!

在單執行緒程式中,對存在控制依賴的操作重排序,不會改變執行結果(這也是 as-if-serial 語義允許對存在控制依賴的操作做重排序的原因);但在多執行緒程式中,對存在控制依賴的操作重排序,可能會改變程式的執行結果。

順序一致性

資料競爭與順序一致性保證

當程式未正確同步時,就會存在資料競爭。java 記憶體模型規範對資料競爭的定義如下:

  • 在一個執行緒中寫一個變數,
  • 在另一個執行緒讀同一個變數,
  • 而且寫和讀沒有通過同步來排序。

當代碼中包含資料競爭時,程式的執行往往產生違反直覺的結果(前一章的示例正是如此)。如果一個多執行緒程式能正確同步,這個程式將是一個沒有資料競爭的程式。

JMM 對正確同步的多執行緒程式的記憶體一致性做了如下保證:

  • 如果程式是正確同步的,程式的執行將具有順序一致性(sequentially consistent)-- 即程式的執行結果與該程式在順序一致性記憶體模型中的執行結果相同(馬上我們將會看到,這對於程式設計師來說是一個極強的保證)。這裡的同步是指廣義上的同步,包括對常用同步原語(lock,volatile 和 final)的正確使用。

順序一致性記憶體模型

順序一致性記憶體模型是一個被電腦科學家理想化了的理論參考模型,它為程式設計師提供了極強的記憶體可見性保證。順序一致性記憶體模型有兩大特性:

  • 一個執行緒中的所有操作必須按照程式的順序來執行。 +(不管程式是否同步)所有執行緒都只能看到一個單一的操作執行順序。在順序一致性記憶體模型中,每個操作都必須原子執行且立刻對所有執行緒可見。 順序一致性記憶體模型為程式設計師提供的檢視如下:

在概念上,順序一致性模型有一個單一的全域性記憶體,這個記憶體通過一個左右擺動的開關可以連線到任意一個執行緒。同時,每一個執行緒必須按程式的順序來執行記憶體讀 / 寫操作。從上圖我們可以看出,在任意時間點最多隻能有一個執行緒可以連線到記憶體。當多個執行緒併發執行時,圖中的開關裝置能把所有執行緒的所有記憶體讀 / 寫操作序列化。

為了更好的理解,下面我們通過兩個示意圖來對順序一致性模型的特性做進一步的說明。

假設有兩個執行緒 A 和 B 併發執行。其中 A 執行緒有三個操作,它們在程式中的順序是:A1->A2->A3。B 執行緒也有三個操作,它們在程式中的順序是:B1->B2->B3。

假設這兩個執行緒使用監視器來正確同步:A 執行緒的三個操作執行後釋放監視器,隨後 B 執行緒獲取同一個監視器。那麼程式在順序一致性模型中的執行效果將如下圖所示:

現在我們再假設這兩個執行緒沒有做同步,下面是這個未同步程式在順序一致性模型中的執行示意圖:

未同步程式在順序一致性模型中雖然整體執行順序是無序的,但所有執行緒都只能看到一個一致的整體執行順序。以上圖為例,執行緒 A 和 B 看到的執行順序都是:B1->A1->A2->B2->A3->B3。之所以能得到這個保證是因為順序一致性記憶體模型中的每個操作必須立即對任意執行緒可見。

但是,在 JMM 中就沒有這個保證。未同步程式在 JMM 中不但整體的執行順序是無序的,而且所有執行緒看到的操作執行順序也可能不一致。比如,在當前執行緒把寫過的資料快取在本地記憶體中,且還沒有重新整理到主記憶體之前,這個寫操作僅對當前執行緒可見;從其他執行緒的角度來觀察,會認為這個寫操作根本還沒有被當前執行緒執行。只有當前執行緒把本地記憶體中寫過的資料重新整理到主記憶體之後,這個寫操作才能對其他執行緒可見。在這種情況下,當前執行緒和其它執行緒看到的操作執行順序將不一致。

同步程式的順序一致性效果

下面我們對前面的示例程式 ReorderExample 用監視器來同步,看看正確同步的程式如何具有順序一致性。

請看下面的示例程式碼:

檢視程式碼
class SynchronizedExample {
    int a = 0;
    boolean flag = false;

    public synchronized void writer() {
        a = 1;
        flag = true;
    }

    public synchronized void reader() {
        if (flag) {
            int i = a;
            ……
        }
    }
}
上面示例程式碼中,假設 A 執行緒執行 writer() 方法後,B 執行緒執行 reader() 方法。這是一個正確同步的多執行緒程式。根據 JMM 規範,該程式的執行結果將與該程式在順序一致性模型中的執行結果相同。下面是該程式在兩個記憶體模型中的執行時序對比圖:

在順序一致性模型中,所有操作完全按程式的順序序列執行。而在 JMM 中,臨界區內的程式碼可以重排序(但 JMM 不允許臨界區內的程式碼“逸出”到臨界區之外,那樣會破壞監視器的語義)。JMM 會在退出監視器和進入監視器這兩個關鍵時間點做一些特別處理,使得執行緒在這兩個時間點具有與順序一致性模型相同的記憶體檢視(具體細節後文會說明)。雖然執行緒 A 在臨界區內做了重排序,但由於監視器的互斥執行的特性,這裡的執行緒 B 根本無法“觀察”到執行緒 A 在臨界區內的重排序。這種重排序既提高了執行效率,又沒有改變程式的執行結果。

從這裡我們可以看到 JMM 在具體實現上的基本方針:在不改變(正確同步的)程式執行結果的前提下,儘可能的為編譯器和處理器的優化開啟方便之門。

未同步程式的執行特性

對於未同步或未正確同步的多執行緒程式,JMM 只提供最小安全性:執行緒執行時讀取到的值,要麼是之前某個執行緒寫入的值,要麼是預設值(0,null,false),JMM 保證執行緒讀操作讀取到的值不會無中生有(out of thin air)的冒出來。為了實現最小安全性,JVM 在堆上分配物件時,首先會清零記憶體空間,然後才會在上面分配物件(JVM 內部會同步這兩個操作)。因此,在以清零的記憶體空間(pre-zeroed memory)分配物件時,域的預設初始化已經完成了。

JMM 不保證未同步程式的執行結果與該程式在順序一致性模型中的執行結果一致。因為未同步程式在順序一致性模型中執行時,整體上是無序的,其執行結果無法預知。保證未同步程式在兩個模型中的執行結果一致毫無意義。

和順序一致性模型一樣,未同步程式在 JMM 中的執行時,整體上也是無序的,其執行結果也無法預知。同時,未同步程式在這兩個模型中的執行特性有下面幾個差異:

  • 順序一致性模型保證單執行緒內的操作會按程式的順序執行,而 JMM 不保證單執行緒內的操作會按程式的順序執行(比如上面正確同步的多執行緒程式在臨界區內的重排序)。這一點前面已經講過了,這裡就不再贅述。
  • 順序一致性模型保證所有執行緒只能看到一致的操作執行順序,而 JMM 不保證所有執行緒能看到一致的操作執行順序。這一點前面也已經講過,這裡就不再贅述。
  • JMM 不保證對 64 位的 long 型和 double 型變數的讀 / 寫操作具有原子性,而順序一致性模型保證對所有的記憶體讀 / 寫操作都具有原子性。

第 3 個差異與處理器匯流排的工作機制密切相關。在計算機中,資料通過匯流排在處理器和記憶體之間傳遞。每次處理器和記憶體之間的資料傳遞都是通過一系列步驟來完成的,這一系列步驟稱之為匯流排事務(bus transaction)。匯流排事務包括讀事務(read transaction)和寫事務(write transaction)。讀事務從記憶體傳送資料到處理器,寫事務從處理器傳送資料到記憶體,每個事務會讀 / 寫記憶體中一個或多個物理上連續的字。這裡的關鍵是,匯流排會同步試圖併發使用匯流排的事務。在一個處理器執行匯流排事務期間,匯流排會禁止其它所有的處理器和 I/O 裝置執行記憶體的讀 / 寫。下面讓我們通過一個示意圖來說明匯流排的工作機制:

如上圖所示,假設處理器 A,B 和 C 同時向匯流排發起匯流排事務,這時匯流排仲裁(bus arbitration)會對競爭作出裁決,這裡我們假設匯流排在仲裁後判定處理器 A 在競爭中獲勝(匯流排仲裁會確保所有處理器都能公平的訪問記憶體)。此時處理器 A 繼續它的匯流排事務,而其它兩個處理器則要等待處理器 A 的匯流排事務完成後才能開始再次執行記憶體訪問。假設在處理器 A 執行匯流排事務期間(不管這個匯流排事務是讀事務還是寫事務),處理器 D 向匯流排發起了匯流排事務,此時處理器 D 的這個請求會被匯流排禁止。

匯流排的這些工作機制可以把所有處理器對記憶體的訪問以序列化的方式來執行;在任意時間點,最多隻能有一個處理器能訪問記憶體。這個特性確保了單個匯流排事務之中的記憶體讀 / 寫操作具有原子性。

在一些 32 位的處理器上,如果要求對 64 位資料的讀 / 寫操作具有原子性,會有比較大的開銷。為了照顧這種處理器,java 語言規範鼓勵但不強求 JVM 對 64 位的 long 型變數和 double 型變數的讀 / 寫具有原子性。當 JVM 在這種處理器上執行時,會把一個 64 位 long/ double 型變數的讀 / 寫操作拆分為兩個 32 位的讀 / 寫操作來執行。這兩個 32 位的讀 / 寫操作可能會被分配到不同的匯流排事務中執行,此時對這個 64 位變數的讀 / 寫將不具有原子性。

當單個記憶體操作不具有原子性,將可能會產生意想不到後果。請看下面示意圖:

如上圖所示,假設處理器 A 寫一個 long 型變數,同時處理器 B 要讀這個 long 型變數。處理器 A 中 64 位的寫操作被拆分為兩個 32 位的寫操作,且這兩個 32 位的寫操作被分配到不同的寫事務中執行。同時處理器 B 中 64 位的讀操作被拆分為兩個 32 位的讀操作,且這兩個 32 位的讀操作被分配到同一個的讀事務中執行。當處理器 A 和 B 按上圖的時序來執行時,處理器 B 將看到僅僅被處理器 A“寫了一半“的無效值。

總結

處理器記憶體模型

順序一致性記憶體模型是一個理論參考模型,JMM 和處理器記憶體模型在設計時通常會把順序一致性記憶體模型作為參照。JMM 和處理器記憶體模型在設計時會對順序一致性模型做一些放鬆,因為如果完全按照順序一致性模型來實現處理器和 JMM,那麼很多的處理器和編譯器優化都要被禁止,這對執行效能將會有很大的影響。

根據對不同型別讀 / 寫操作組合的執行順序的放鬆,可以把常見處理器的記憶體模型劃分為下面幾種型別:

  • 放鬆程式中寫 - 讀操作的順序,由此產生了 total store ordering 記憶體模型(簡稱為 TSO)。
  • 在前面 1 的基礎上,繼續放鬆程式中寫 - 寫操作的順序,由此產生了 partial store order 記憶體模型(簡稱為 PSO)。
  • 在前面 1 和 2 的基礎上,繼續放鬆程式中讀 - 寫和讀 - 讀操作的順序,由此產生了 relaxed memory order 記憶體模型(簡稱為 RMO)和 PowerPC 記憶體模型。

注意,這裡處理器對讀 / 寫操作的放鬆,是以兩個操作之間不存在資料依賴性為前提的(因為處理器要遵守 as-if-serial 語義,處理器不會對存在資料依賴性的兩個記憶體操作做重排序)。

下面的表格展示了常見處理器記憶體模型的細節特徵:

記憶體模型名稱 對應的處理器 Store-Load 重排序 Store-Store 重排序 Load-Load 和 Load-Store 重排序 可以更早讀取到其它處理器的寫 可以更早讀取到當前處理器的寫
TSO sparc-TSO X64 Y       Y
PSO sparc-PSO Y Y     Y
RMO ia64 Y Y Y   Y
PowerPC PowerPC Y Y Y Y Y

在這個表格中,我們可以看到所有處理器記憶體模型都允許寫 - 讀重排序,原因在第一章以說明過:它們都使用了寫快取區,寫快取區可能導致寫 - 讀操作重排序。同時,我們可以看到這些處理器記憶體模型都允許更早讀到當前處理器的寫,原因同樣是因為寫快取區:由於寫快取區僅對當前處理器可見,這個特性導致當前處理器可以比其他處理器先看到臨時儲存在自己的寫快取區中的寫。

上面表格中的各種處理器記憶體模型,從上到下,模型由強變弱。越是追求效能的處理器,記憶體模型設計的會越弱。因為這些處理器希望記憶體模型對它們的束縛越少越好,這樣它們就可以做盡可能多的優化來提高效能。

由於常見的處理器記憶體模型比 JMM 要弱,java 編譯器在生成位元組碼時,會在執行指令序列的適當位置插入記憶體屏障來限制處理器的重排序。同時,由於各種處理器記憶體模型的強弱並不相同,為了在不同的處理器平臺向程式設計師展示一個一致的記憶體模型,JMM 在不同的處理器中需要插入的記憶體屏障的數量和種類也不相同。下圖展示了 JMM 在不同處理器記憶體模型中需要插入的記憶體屏障的示意圖:

如上圖所示,JMM 遮蔽了不同處理器記憶體模型的差異,它在不同的處理器平臺之上為 java 程式設計師呈現了一個一致的記憶體模型。

JMM,處理器記憶體模型與順序一致性記憶體模型之間的關係

JMM 是一個語言級的記憶體模型,處理器記憶體模型是硬體級的記憶體模型,順序一致性記憶體模型是一個理論參考模型。下面是語言記憶體模型,處理器記憶體模型和順序一致性記憶體模型的強弱對比示意圖:

從上圖我們可以看出:常見的 4 種處理器記憶體模型比常用的 3 中語言記憶體模型要弱,處理器記憶體模型和語言記憶體模型都比順序一致性記憶體模型要弱。同處理器記憶體模型一樣,越是追求執行效能的語言,記憶體模型設計的會越弱。

JMM 的設計

從 JMM 設計者的角度來說,在設計 JMM 時,需要考慮兩個關鍵因素:

  • 程式設計師對記憶體模型的使用。程式設計師希望記憶體模型易於理解,易於程式設計。程式設計師希望基於一個強記憶體模型來編寫程式碼。
  • 編譯器和處理器對記憶體模型的實現。編譯器和處理器希望記憶體模型對它們的束縛越少越好,這樣它們就可以做盡可能多的優化來提高效能。編譯器和處理器希望實現一個弱記憶體模型。

由於這兩個因素互相矛盾,所以 JSR-133 專家組在設計 JMM 時的核心目標就是找到一個好的平衡點:一方面要為程式設計師提供足夠強的記憶體可見性保證;另一方面,對編譯器和處理器的限制要儘可能的放鬆。下面讓我們看看 JSR-133 是如何實現這一目標的。

為了具體說明,請看前面提到過的計算圓面積的示例程式碼:

double pi  = 3.14;    //A
double r   = 1.0;     //B
double area = pi * r * r; //C

上面計算圓的面積的示例程式碼存在三個 happens- before 關係:

  • A happens- before B;
  • B happens- before C;
  • A happens- before C;

由於 A happens- before B,happens- before 的定義會要求:A 操作執行的結果要對 B 可見,且 A 操作的執行順序排在 B 操作之前。 但是從程式語義的角度來說,對 A 和 B 做重排序即不會改變程式的執行結果,也還能提高程式的執行效能(允許這種重排序減少了對編譯器和處理器優化的束縛)。也就是說,上面這 3 個 happens- before 關係中,雖然 2 和 3 是必需要的,但 1 是不必要的。因此,JMM 把 happens- before 要求禁止的重排序分為了下面兩類:

  • 會改變程式執行結果的重排序。
  • 不會改變程式執行結果的重排序。

JMM 對這兩種不同性質的重排序,採取了不同的策略:

  • 對於會改變程式執行結果的重排序,JMM 要求編譯器和處理器必須禁止這種重排序。
  • 對於不會改變程式執行結果的重排序,JMM 對編譯器和處理器不作要求(JMM 允許這種重排序)。

下面是 JMM 的設計示意圖:

從上圖可以看出兩點:

  • JMM 向程式設計師提供的 happens- before 規則能滿足程式設計師的需求。JMM 的 happens- before 規則不但簡單易懂,而且也向程式設計師提供了足夠強的記憶體可見性保證(有些記憶體可見性保證其實並不一定真實存在,比如上面的 A happens- before B)。
  • JMM 對編譯器和處理器的束縛已經儘可能的少。從上面的分析我們可以看出,JMM 其實是在遵循一個基本原則:只要不改變程式的執行結果(指的是單執行緒程式和正確同步的多執行緒程式),編譯器和處理器怎麼優化都行。比如,如果編譯器經過細緻的分析後,認定一個鎖只會被單個執行緒訪問,那麼這個鎖可以被消除。再比如,如果編譯器經過細緻的分析後,認定一個 volatile 變數僅僅只會被單個執行緒訪問,那麼編譯器可以把這個 volatile 變數當作一個普通變數來對待。這些優化既不會改變程式的執行結果,又能提高程式的執行效率。

JMM 的記憶體可見性保證

Java 程式的記憶體可見性保證按程式型別可以分為下列三類:

  • 單執行緒程式。單執行緒程式不會出現記憶體可見性問題。編譯器,runtime 和處理器會共同確保單執行緒程式的執行結果與該程式在順序一致性模型中的執行結果相同。
  • 正確同步的多執行緒程式。正確同步的多執行緒程式的執行將具有順序一致性(程式的執行結果與該程式在順序一致性記憶體模型中的執行結果相同)。這是 JMM 關注的重點,JMM 通過限制編譯器和處理器的重排序來為程式設計師提供記憶體可見性保證。
  • 未同步 / 未正確同步的多執行緒程式。JMM 為它們提供了最小安全性保障:執行緒執行時讀取到的值,要麼是之前某個執行緒寫入的值,要麼是預設值(0,null,false)。

下圖展示了這三類程式在 JMM 中與在順序一致性記憶體模型中的執行結果的異同:

只要多執行緒程式是正確同步的,JMM 保證該程式在任意的處理器平臺上的執行結果,與該程式在順序一致性記憶體模型中的執行結果一致。

JSR-133 對舊記憶體模型的修補

JSR-133 對 JDK5 之前的舊記憶體模型的修補主要有兩個:

  • 增強 volatile 的記憶體語義。舊記憶體模型允許 volatile 變數與普通變數重排序。JSR-133 嚴格限制 volatile 變數與普通變數的重排序,使 volatile 的寫 - 讀和鎖的釋放 - 獲取具有相同的記憶體語義。
  • 增強 final 的記憶體語義。在舊記憶體模型中,多次讀取同一個 final 變數的值可能會不相同。為此,JSR-133 為 final 增加了兩個重排序規則。現在,final 具有了初始化安全性。

參考文章