為什麼阿里巴巴Java開發手冊中強制要求整型包裝類物件值用 equals 方法比較?
在閱讀《阿里巴巴Java開發手冊》時,發現有一條關於整型包裝類物件之間值比較的規約,具體內容如下:
這條建議非常值得大家關注, 而且該問題在 Java 面試中十分常見。
還需要思考以下幾個問題:
- 如果不看《阿里巴巴Java開發手冊》,如何知道 Integer var = ? 會快取 -128 到 127 之間的賦值?
- 為什麼會快取這個範圍的賦值?
- 如何學習和分析類似的問題?
Integer 快取問題分析
先看下面的示例程式碼,並思考該段程式碼的輸出結果:
public class IntegerTest { public static void main(String[] args) { Integer a = 100, b = 100, c = 666, d = 666; System.out.println(a == b); System.out.println(c == d); } }
通過執行程式碼可以得到答案,程式輸出的結果分別為: true , false。
那麼為什麼答案是這樣?
結合《阿里巴巴Java開發手冊》的描述很多人可能會回答:因為快取了 -128 到 127 之間的數值,就沒有然後了。
那麼為什麼會快取這一段區間的數值?快取的區間可以修改嗎?其它的包裝型別有沒有類似快取?
接下來,讓我們一起進行分析。
原始碼分析法
首先我們可以通過原始碼對該問題進行分析。
我們知道,Integer var = ? 形式宣告變數,會通過 java.lang.Integer#valueOf(int) 來構造 Integer 物件。
怎麼知道會呼叫 valueOf() 方法呢?
大家可以通過打斷點,執行程式後會調到這裡。
先看 java.lang.Integer#valueOf(int) 原始碼:
/** * Returns an {@code Integer} instance representing the specified * {@code int} value. If a new {@code Integer} instance is not * required, this method should generally be used in preference to * the constructor {@link #Integer(int)}, as this method is likely * to yield significantly better space and time performance by * caching frequently requested values. * * This method will always cache values in the range -128 to 127, * inclusive, and may cache other values outside of this range. * * @param i an {@code int} value. * @return an {@code Integer} instance representing {@code i}. * @since 1.5 */ public static Integer valueOf(int i) { if (i >= IntegerCache.low && i <= IntegerCache.high) return IntegerCache.cache[i + (-IntegerCache.low)]; return new Integer(i); }
通過原始碼可以看出,如果用 Ineger.valueOf(int) 來建立整數物件,引數大於等於整數快取的最小值( IntegerCache.low )並小於等於整數快取的最大值( IntegerCache.high), 會直接從快取陣列 (java.lang.Integer.IntegerCache#cache) 中提取整數物件;否則會 new 一個整數物件。在 JDK9 直接把 new 的構造方法標記為 deprecated,推薦使用 valueOf(),合理利用快取,提升程式效能。
那麼這裡的快取最大和最小值分別是多少呢?
從上述註釋中我們可以看出,最小值是 -128, 最大值是 127。
那麼為什麼會快取這一段區間的整數物件呢?
通過註釋我們可以得知:如果不要求必須新建一個整型物件,快取最常用的值(提前構造快取範圍內的整型物件),會更省空間,速度也更快。
這給我們一個非常重要的啟發:
如果想減少記憶體佔用,提高程式執行的效率,可以將常用的物件提前快取起來,需要時直接從快取中提取。
那麼我們再思考下一個問題: Integer 快取的區間可以修改嗎?
通過上述原始碼和註釋我們還無法回答這個問題,接下來,我們繼續看 java.lang.Integer.IntegerCache 的原始碼:
/**
* Cache to support the object identity semantics of autoboxing for values between
* -128 and 127 (inclusive) as required by JLS.
*
* The cache is initialized on first usage. The size of the cache
* may be controlled by the {@code -XX:AutoBoxCacheMax=<size>} option.
* During VM initialization, java.lang.Integer.IntegerCache.high property
* may be set and saved in the private system properties in the
* sun.misc.VM class.
*/
private static class IntegerCache {
static final int low = -128;
static final int high;
static final Integer cache[];
static {
// high value may be configured by property
int h = 127;
String integerCacheHighPropValue =
sun.misc.VM.getSavedProperty("java.lang.Integer.IntegerCache.high");
// 省略其它程式碼
}
// 省略其它程式碼
}
通過 IntegerCache 程式碼和註釋我們可以看到,最小值是固定值 -128, 最大值並不是固定值,快取的最大值是可以通過虛擬機器引數 -XX:AutoBoxCacheMax=
因此可以通過修改這兩個引數其中之一,讓快取的最大值大於等於 666。
如果作出這種修改,示例的輸出結果便會是: true,true。
學到這裡是不是發現,對此問題的理解和最初的想法有些不同呢?
這段註釋也解答了為什麼要快取這個範圍的資料:
是為了自動裝箱時可以複用這些物件 ,這也是 JLS2 的要求。
我們可以參考 JLS 的 Boxing Conversion 部分的相關描述。
If the valuepbeing boxed is an integer literal of type intbetween -128and 127inclusive (§3.10.1), or the boolean literal trueorfalse(§3.10.3), or a character literal between '\u0000'and '\u007f'inclusive (§3.10.4), then let aand bbe the results of any two boxing conversions of p. It is always the case that a==b.
在 -128 到 127 (含)之間的 int 型別的值,或者 boolean 型別的 true 或 false, 以及範圍在’\u0000’和’\u007f’ (含)之間的 char 型別的數值 p, 自動包裝成 a 和 b 兩個物件時, 可以使用 a == b 判斷 a 和 b 的值是否相等。
反編譯法
那麼究竟 Integer var = ? 形式宣告變數,是不是通過 java.lang.Integer#valueOf(int) 來構造 Integer 物件呢? 總不能都是猜測 N 個可能的函式,然後斷點除錯吧?
如果遇到其它類似的問題,沒人告訴我底層呼叫了哪個方法,該怎麼辦?
這類問題,可以通過對編譯後的 class 檔案進行反編譯來檢視。
首先編譯原始碼:javac IntegerTest.java
然後需要對程式碼進行反編譯,執行:javap -c IntegerTest
如果想了解 javap 的用法,直接輸入 javap -help 檢視用法提示(很多命令列工具都支援 -help 或 --help 給出用法提示)。
反編譯後,我們得到以下程式碼:
Compiled from "IntegerTest.java"
public class com.wupx.demo.IntegerTest {
public com.wupx.demo.IntegerTest();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
public static void main(java.lang.String[]);
Code:
0: bipush 100
2: invokestatic #2 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
5: astore_1
6: bipush 100
8: invokestatic #2 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
11: astore_2
12: sipush 666
15: invokestatic #2 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
18: astore_3
19: sipush 666
22: invokestatic #2 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
25: astore 4
27: getstatic #3 // Field java/lang/System.out:Ljava/io/PrintStream;
30: aload_1
31: aload_2
32: if_acmpne 39
35: iconst_1
36: goto 40
39: iconst_0
40: invokevirtual #4 // Method java/io/PrintStream.println:(Z)V
43: getstatic #3 // Field java/lang/System.out:Ljava/io/PrintStream;
46: aload_3
47: aload 4
49: if_acmpne 56
52: iconst_1
53: goto 57
56: iconst_0
57: invokevirtual #4 // Method java/io/PrintStream.println:(Z)V
60: return
}
可以明確得 "看到" 這四個 `Integer var = ? 形式宣告的變數的確是通過 java.lang.Integer#valueOf(int) 來構造 Integer
物件的。
接下來對編譯後的程式碼進行詳細分析,如果看不懂可略過:
根據《Java Virtual Machine Specification : Java SE 8 Edition》3,後縮寫為 JVMS , 第 6 章 虛擬機器指令集的相關描述以及《深入理解 Java 虛擬機器》4 414-149 頁的 附錄 B “虛擬機器位元組碼指令表”。 我們對上述指令進行解讀:
偏移為 0 的指令為:bipush 100 ,其含義是將單位元組整型常量 100 推入運算元棧的棧頂;
偏移為 2 的指令為:invokestatic #2 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer; 表示呼叫一個 static 函式,即 java.lang.Integer#valueOf(int);
偏移為 5 的指令為:astore_1 ,其含義是從運算元棧中彈出物件引用,然後將其存到第 1 個區域性變數 Slot 中;
偏移 6 到 25 的指令和上面類似;
偏移為 30 的指令為 aload_1 ,其含義是從第 1 個區域性變數 Slot 取出物件引用(即 a),並將其壓入棧;
偏移為 31 的指令為 aload_2 ,其含義是從第 2 個區域性變數 Slot 取出物件引用(即 b),並將其壓入棧;
偏移為 32 的指令為 if_acmpn,該指令為條件跳轉指令,if_ 後以 a 開頭表示物件的引用比較。
由於該指令有以下特性:
if_acmpeq 比較棧兩個引用型別數值,相等則跳轉
if_acmpne 比較棧兩個引用型別數值,不相等則跳轉
由於 Integer 的快取問題,所以 a 和 b 引用指向同一個地址,因此此條件不成立(成立則跳轉到偏移為 39 的指令處),執行偏移為 35 的指令。
偏移為 35 的指令: iconst_1,其含義為將常量 1 壓棧( Java 虛擬機器中 boolean 型別的運算型別為 int ,其中 true 用 1 表示,詳見 2.11.1 資料型別和 Java 虛擬機器。
然後執行偏移為 36 的 goto 指令,跳轉到偏移為 40 的指令。
偏移為 40 的指令:invokevirtual #4 // Method java/io/PrintStream.println:(Z)V。
可知引數描述符為 Z ,返回值描述符為 V。
根據 4.3.2 欄位描述符 ,可知 FieldType 的字元為 Z 表示 boolean 型別, 值為 true 或 false。
根據 4.3.3 欄位描述符 ,可知返回值為 void。
因此可以知,最終呼叫了 java.io.PrintStream#println(boolean) 函式列印棧頂常量即 true。
然後比較執行偏移 43 到 57 之間的指令,比較 c 和 d, 列印 false 。
執行偏移為 60 的指令,即 retrun ,程式結束。
可能有些朋友會對反編譯的程式碼有些抵觸和恐懼,這都是非常正常的現象。
我們分析和研究問題的時候,看懂核心邏輯即可,不要糾結於細節,而失去了重點。
一回生兩回熟,隨著遇到的例子越來越多,遇到類似的問題時,會喜歡上 javap 來分析和解決問題。
如果想深入學習 java 反編譯,強烈建議結合官方的 JVMS 或其中文版:《Java 虛擬機器規範》這本書進行拓展學習。
Long 的快取問題分析
學習的目的之一就是要學會舉一反三,因此對 Long 也進行類似的研究,探究兩者之間有何異同。
原始碼分析
類似的,接下來分析 java.lang.Long#valueOf(long) 的原始碼:
/**
* Returns a {@code Long} instance representing the specified
* {@code long} value.
* If a new {@code Long} instance is not required, this method
* should generally be used in preference to the constructor
* {@link #Long(long)}, as this method is likely to yield
* significantly better space and time performance by caching
* frequently requested values.
*
* Note that unlike the {@linkplain Integer#valueOf(int)
* corresponding method} in the {@code Integer} class, this method
* is <em>not</em> required to cache values within a particular
* range.
*
* @param l a long value.
* @return a {@code Long} instance representing {@code l}.
* @since 1.5
*/
public static Long valueOf(long l) {
final int offset = 128;
if (l >= -128 && l <= 127) { // will cache
return LongCache.cache[(int)l + offset];
}
return new Long(l);
}
發現該函式的寫法和 Ineger.valueOf(int) 非常相似。
我們同樣也看到, Long 也用到了快取。 使用 Ineger.valueOf(int) 構造 Long 物件時,值在 [-128, 127] 之間的 Long 物件直接從快取物件陣列中提取。
而且註釋同樣也提到了:快取的目的是為了提高效能。
但是通過註釋我們發現這麼一段提示:
Note that unlike the {@linkplain Integer#valueOf(int) corresponding method} in the {@code Integer} class, this method is not required to cache values within a particular range.
注意:和 Ineger.valueOf(int) 不同的是,此方法並沒有被要求快取特定範圍的值。
這也正是上面原始碼中快取範圍判斷的註釋為何用 // will cache 的原因(可以對比一下上面 Integer 的快取的註釋)。
因此我們可知,雖然此處採用了快取,但應該不是 JLS 的要求。
那麼 Long 型別的快取是如何構造的呢?
我們檢視快取陣列的構造:
private static class LongCache {
private LongCache(){}
static final Long cache[] = new Long[-(-128) + 127 + 1];
static {
for(int i = 0; i < cache.length; i++)
cache[i] = new Long(i - 128);
}
}
可以看到,它是在靜態程式碼塊中填充快取陣列的。
反編譯
同樣地我們也編寫一個示例片段:
public class LongTest {
public static void main(String[] args) {
Long a = -128L, b = -128L, c = 666L, d = 666L;
System.out.println(a == b);
System.out.println(c == d);
}
}
編譯原始碼: javac LongTest.java
對編譯後的類檔案進行反編譯: javap -c LongTesg
得到下面反編譯的程式碼:
Compiled from "LongTest.java"
public class com.wupx.demo.LongTest {
public com.wupx.demo.LongTest();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
public static void main(java.lang.String[]);
Code:
0: ldc2_w #2 // long -128l
3: invokestatic #4 // Method java/lang/Long.valueOf:(J)Ljava/lang/Long;
6: astore_1
7: ldc2_w #2 // long -128l
10: invokestatic #4 // Method java/lang/Long.valueOf:(J)Ljava/lang/Long;
13: astore_2
14: ldc2_w #5 // long 666l
17: invokestatic #4 // Method java/lang/Long.valueOf:(J)Ljava/lang/Long;
20: astore_3
21: ldc2_w #5 // long 666l
24: invokestatic #4 // Method java/lang/Long.valueOf:(J)Ljava/lang/Long;
27: astore 4
29: getstatic #7 // Field java/lang/System.out:Ljava/io/PrintStream;
32: aload_1
33: aload_2
34: if_acmpne 41
37: iconst_1
38: goto 42
41: iconst_0
42: invokevirtual #8 // Method java/io/PrintStream.println:(Z)V
45: getstatic #7 // Field java/lang/System.out:Ljava/io/PrintStream;
48: aload_3
49: aload 4
51: if_acmpne 58
54: iconst_1
55: goto 59
58: iconst_0
59: invokevirtual #8 // Method java/io/PrintStream.println:(Z)V
62: return
}
從上述程式碼中發現 Long var = ? 的確是通過 java.lang.Long#valueOf(long) 來構造物件的。
事實上,除 Float 和 Double 外,其他包裝資料型別都會快取,6 個包裝類直接賦值時,就是呼叫對應包裝類的靜態工廠方法 valueOf()。
各個包裝類的快取區間如下:
- Boolean:使用靜態 final 變數定義,valueOf() 就是返回這兩個靜態值
- Byte:表示範圍是 -128 ~ 127,全部快取
- Short:表示範圍是 - 32768 ~ 32767,快取範圍是 -128~127
- Character:表示範圍是 0 ~ 65535,快取範圍是 0~127
- Long:表示範圍是 [-2^63 ~ 2^63-1],快取範圍是 -128~127
- Integer:表示範圍是 [-2^31 ~ 2^31-1],快取範圍是 -128~127,但它是唯一可以修改快取範圍的包裝類,在 VM options 加入引數 -XX:AutoBoxCacheMax=6666,即可設定最大快取值為 6666
另外,在選擇使用包裝類還是基本資料型別時,推薦使用如下方式:
- 所有的 POJO 類屬性必須使用包裝資料型別
- RPC 方法的返回值和引數必須使用包裝資料型別
- 所有的區域性變數推薦使用基本資料型別
總結
本文首先對阿里巴巴Java開發手冊中強制要求整型包裝類物件值用 equals 方法比較作了簡單介紹,並通過原始碼分析法、閱讀 JLS 和 JVMS、使用反編譯法,對 Integer 和 Long 快取的目的和實現方式問題進行了深入分析。
讓大家能夠用更豐富的手段來學習知識和分析問題,通過對快取目的的思考來學到更通用和本質的東西。
還介紹了其他包裝型別的快取範圍,以及包裝類和基本資料型別的推薦使用場景。
參考
《Java開發手冊》華山版
《碼出高效:Java開發手冊》
《深入理解Java虛擬機器》