String原始碼淺析

阿新 • • 發佈：2020-09-11

如果問你，開發過程中用的最多的類是哪個？你可能回答是`HashMap`，一個原因就是HashMap的使用量的確很多，還有就是HashMap的內容在面試中經常被問起。但是在開發過程中使用最多的類其實並不是HashMap類，而是“默默無聞”的String類。假如現在問你String類是怎麼實現的？這個類為什麼是不可變類？這個類為什麼不能被繼承？這些問題你都能回答麼。本文就從String原始碼出發，來看下String到底是怎麼實現的，並詳細介紹下String類的API的用法。 ## String原始碼結構首先要說明的是本文的原始碼是以**JDK11為基準**，選擇JDK11的原因是JDK11是一個LTS版本（長期支援版本），沒選擇現階段還在廣泛使用的JDK8的原因是想在看原始碼的過程中學習下JDK的新特性。還有要說下的就是：大家在看原始碼時一定要注意JDK的版本，因為不同版本的實現有較大的差異。比如說String的實現在高低版本中就差異比較大。如果你是一個部落格主，更加要註明程式碼的版本了，不然讀者可能會很疑惑，為什麼和自己之前看的不一樣。好了，下面就言歸正傳來看下String在JDK11中的實現程式碼。 ```java public final class String implements Serializable, Comparable, CharSequence { @Stable //位元組陣列，存放String的內容，如果你看的是較低版本的原始碼，這個變數可能是char[]型別，這個其實是JDK9開始對String做的一個優化 //具體是做了什麼優化我們下面再講，這邊先賣個關子 private final byte[] value; //也是和String壓縮優化有關，指定當前的LATIN1碼還是UTF16碼 private final byte coder; //雜湊值 private int hash; //序列化Id private static final long serialVersionUID = -6849794470754667710L; //優化壓縮開關，預設開啟 static final boolean COMPACT_STRINGS = true; private static final ObjectStreamField[] serialPersistentFields = new ObjectStreamField[0]; public static final Comparator CASE_INSENSITIVE_ORDER = new String.CaseInsensitiveComparator(); static final byte LATIN1 = 0; static final byte UTF16 = 1; //... 下面部分程式碼省略 } ``` 從實現的介面看，String類有如下特點： - String類被**final**關鍵字修飾，因此不能被繼承。 - String的成員變數value使用final修飾，因此是不可變的，執行緒安全； - String類實現了Serializable介面，可以實現序列化。 - String類實現了Comparable，可以比較大小。 - String類實現了CharSequence介面，String本質是個陣列，低版本中是char陣列，JDK9以後優化成byte陣列，從String的成員變數value就可以看出來。這邊說一個看原始碼的小技巧：**看一個類的原始碼時，我們先看下這個類實現了哪些介面，就可以大概知道這個類的主要作用功能是什麼了。** ## JDK9對String的優化這邊首先要講下`JDK 9`中對String的優化，如果你不瞭解這塊優化點的話，看String的程式碼時會感到非常疑惑。 **背景知識** 在Java中，一個位元組char佔用兩個位元組的記憶體空間。在低版本的JDK中，String的內部預設維護的是一個char[]陣列，也就是說一個字串中包含一個字元，這個字串內部就包含一個相應長度的字元陣列。這樣就會出現下面這種情況： ```java String s = "ddd"; String s1 = "自由之路"； ``` 上面兩個字串內部的情況實際上是： ```java char[] value = ['d','d','d']; char[] value1 = ['自','由'，'之','路']; ``` 對於字串s，我們發現其中每個字元其實都是可以用一個位元組表示的，而現在使用兩個字元的char型別來表示，明顯就浪費了一倍的記憶體空間。而且根據統計，在實際程式執行中，字串中包含的字元大多都是可以用一個位元組表示的字元，所以優化的空間很大。優化的方式就是在String內部使用byte[]陣列來表示字串，而不是使用char[]陣列。當檢測到，字串中的所有字元在Unicode碼集中的碼值可以使用一個位元組表示時，就可以節省一半的空間。 ### JDK6 中的Compressed Strings 其實在JDK6中就對String類做過類似的優化：在Java 6引入了Compressed Strings，對於one byte per character的字串使用byte[]，對於two bytes per character的字串繼續使用char[]。使用-XX:+UseCompressedStrings來開啟上面的優化。不過由於開啟這個特性後會造成一些不可知的異常，這個特性在java7中被廢棄了，然後在java8被移除。 ### JDK9中的Compact String Java 9 重新採納字串壓縮這一概念。和JDK6不同的是：**無論何時我們建立一個所有字元都能用一個位元組的 LATIN-1 編碼來描述的字串，都將在內部使用位元組陣列的形式儲存**，且每個字元都只佔用一個位元組。另一方面，如果字串中任一字元需要多於 8 位元位來表示時，該字串的所有字元都統統使用兩個位元組的 UTF-16 編碼來描述。因此基本上能如果可能，都將使用單位元組來表示一個字元。 ```java //佔用3個位元組 String ss = new String("ddd"); //佔用14個位元組 String s = "自由之路ddd"; ``` 現在的問題是：所有的字串操作如何執行？怎樣才能區分字串是由 LATIN-1 還是 UTF-16 來編碼？為了處理這些問題，字串的內部實現進行了一些調整。引入了一個 `final` 修飾的成員變數 `coder`, 由它來儲存當前字串的編碼資訊。 ```java //所有的字串都用byte陣列儲存 private final byte[] value; //用coder標示字串中所有的字元是不是都可以用一個位元組表示，它的值只有兩個LATIN1：1，標示所有字元都可以用一個位元組表示，UTF16：標示字串中部分字元需要兩個位元組表示。 private final byte coder; //下面是兩個常量 static final byte LATIN1 = 0; static final byte UTF16 = 1; ``` 現在，大多數的字串操作都將檢查 `coder` 變數，從而採取特定的實現： ```Java public int indexOf(int ch, int fromIndex) { return isLatin1() ? StringLatin1.indexOf(value, ch, fromIndex) : StringUTF16.indexOf(value, ch, fromIndex); } private boolean isLatin1() { return COMPACT_STRINGS && coder == LATIN1; } ``` 我們再看下String的一個常用方法： ```java public int length() { return value.length >> coder; } ``` 這個方法是要計算字串的長度，含義也很清楚。根據coder欄位判斷當前的字串中一個字元使用幾個位元組表示，如果是coder等於0，也是LATIN1模式，那麼所有字元都是用一個位元組表示，直接返回byte[]陣列的長度就可以。如果coder等於1，那麼標示字串中所有字元都是用兩個位元組表示的，計算字串的長度需要將byte[]陣列除以2。`value.length >> coder`就是這個意思。因為對String做了上面的優化，所以String的很多方法在操作時都需要判斷現在的模式是LATIN1還是UTF16模式，具體的方法這邊就不一一舉例了。但是這些判斷對使用String的開發者時無感的。當然，String的這個優化特性可以關閉，使用下面的啟動引數就可以。 ```bash +XX:-CompactStrings ``` ## String的常用構造方法 ```java //構建空字串 public String() { this.value = "".value; this.coder = "".coder; } //根據已有的字串，建立一個新的字串 @HotSpotIntrinsicCandidate public String(String original) { this.value = original.value; this.coder = original.coder; this.hash = original.hash; } //根據字元陣列，建立字串，建立的過程中有壓縮優化的邏輯，具體見下面的方法 public String(char[] value) { this((char[])value, 0, value.length, (Void)null); } String(char[] value, int off, int len, Void sig) { if (len == 0) { this.value = "".value; this.coder = "".coder; } else { if (COMPACT_STRINGS) { //如果發現這個字元陣列可以壓縮，就使用LATIN1方式 byte[] val = StringUTF16.compress(value, off, len); if (val != null) { this.value = val; this.coder = 0; return; } } //不能進行壓縮優化，還是使用UTF16的方式 this.coder = 1; this.value = StringUTF16.toBytes(value, off, len); } } ``` String中還有很多構造方法，但是都會大同小異，大家可以自己看原始碼。 ## String常用方法總結這邊總結下String的常用方法，一些比較簡單的方法就不具體講了。我們挑選一些比較重要的方法，具體講下他們的使用方法。 - codePointAt(int index)：返回下標是index的字元在Unicode碼集中的碼點值； - codePoints()：返回字串中每個字元在Unicode碼集中的碼點值； - compareToIgnoreCase(String other)：忽略大小寫比較字元大小； - concat(String other)：字串拼接函式； - equalsIgnoreCase(String other)：忽略大小寫比較字串； - format：字串格式化函式，比較有用； - getBytes(String charSet)：獲取字串在特定編碼下的位元組陣列； - indexOf(String s)：返回字串s的下標，不存在返回-1； - intren()：作用是檢測常量池中是否有當前字串，有的話就返回常量池中的對像，沒有的話就將當前對像放入常量池。 - isBlank()：如果字串為空或只包含空白字元，則返回true，否則返回false，JDK11新加的API； - length()：返回字元長度； - lines()：從字串返回按行分割的Stream，行分割福包括：n ，r 和rn，stream包含了按順序分割的行，行分隔符被移除了，這個方法會類似split()，但效能更好；這個也是JDK11新加的API - matchs(String regex)：和某個正則是否匹配； - regionMatches(int firstStart, String other, int otherStart, int len)：當某個字串呼叫該方法時，表示從當前字串的firstStart位置開始，取一個長度為len的子串；然後從另一個字串other的otherStart位置開始也取一個長度為len的子串，然後比較這兩個子串是否相同，如果這兩個子串相同則返回true，否則返回false。 - repeat()：返回一個字串，其內容是字串重複n次後的結果，JDK11新加入的函式； - String[] split(String regex, int limit)：分割字串，注意limit引數的使用，下面會詳細講； - startsWith(String prefix, int toffset)：判斷字串是否以prefix打頭； - replace(char oldChar, char newChar)：使用newChar替換所有的oldChar，不是基於正則表示式的； - replace(CharSequence target, CharSequence replacement)：替換所有，基於正則表示式的； - replaceFirst(String regex, String replacement)：替換regex匹配的第一個字串，基於正則表示式； - replaceAll(String regex, String replacement)：替換regex匹配的所有字串，基於正則表示式； - strip() ：去除字串前後的“全形和半形”空白字元，這個函式在JDK中11才引入，注意和trim的區別，關於全形和半形的區別，可以參考這篇[文章](https://www.cnblogs.com/Peter2014/p/12710531.html)，還提供了stripLeading()和stripTrailing()，可以分別去掉頭部或尾部的空格； - subString(int fromIndex)：從指定位置開始擷取到字串結尾部分的子串； - subString(int fromIndex,int endIndex)：擷取字串指定下標的子串； - toCharArray()：轉換成字元陣列； - toUpperCase(Locale locale) ：小寫轉換成大寫； - toLowerCase(Locale locale)：大寫轉換成小寫； - trim()：去除字串前後的空白字元（空格、tab鍵、換行符等，具體的話是去除ascll碼小於32的字元），注意trim和strip的區別； - `valueof`系列方法：將其他型別的資料轉換成String型別，比如將bool、int和long等型別轉換成String型別。 ### concat字串拼接函式 concat函式是字串拼接函式，介紹這個函式並不是因為這個函式比較重要或者實現比較複雜。而是因為通過這個函式的原始碼我們可以看出很多String的特性。 ```java public String concat(String str) { //如果被拼接的字串的長度是0，直接返回自己 int olen = str.length(); if (olen == 0) { return this; } else { byte[] buf; //如果當前字串和被拼接的字串的編碼模式相同，都是LATIN1或者都是UTF16 if (this.coder() == str.coder()) { byte[] val = this.value; buf = str.value; //計算出新字串所需位元組的長度 int len = val.length + buf.length; byte[] buf = Arrays.copyOf(val, len); //使用系統函式拷貝 System.arraycopy(buf, 0, buf, val.length, buf.length); //根據新的位元組陣列生成一個新的字串 return new String(buf, this.coder); } else { //當前字串和被拼接的字串的編碼模式不同，那麼必須使用UTF16的編碼模式 int len = this.length(); buf = StringUTF16.newBytesFor(len + olen); this.getBytes(buf, 0, (byte)1); str.getBytes(buf, len, (byte)1); return new String(buf, (byte)1); } } } ``` ### format函式 String的format方法是一個很有用的方法，可以用來對字串、數字、日期和時間等進行格式化。 ```java //對整數格式化，4位顯示，不足4位補0 //超過4位，還是原樣顯示 int num = 999; String str = String.format("%04d", num); System.out.println(str); //對日期進行格式化 String format = String.format("%tF", new Date()); System.out.println(format); ``` format方法還有很多用法,大家可以自己查詢使用。 ### regionMatches 該方法的定義如下： ```java regionMatches(int firstStart, String other, int otherStart, int len) ``` 當某個字串呼叫該方法時，表示從當前字串的firstStart位置開始，取一個長度為len的子串；然後從另一個字串other的otherStart位置開始也取一個長度為len的子串，然後比較這兩個子串是否相同，如果這兩個子串相同則返回true，否則返回false。該方法還有另一種過載： ```java str.regionMatches(boolean ignoreCase, int firstStart, String other, int otherStart, int len) ``` 可以看到只是多了一個boolean型別的引數，用來確定比較時是否忽略大小寫，當ignoreCase為true表示忽略大小寫。 ### split函式 String的split函式我們平時也經常使用，但是估計很多人都沒有注意這個函式的第二個引數：limit ```java public String[] split(String regex, int limit) ``` 首先，split方法的作用是根據給定的regex去分割字串，將分割完成的字元陣列返回。其中limit引數的作用是： - 當limit>0時，limit代表最後的陣列長度，同時一共會分割limit-1次，最後沒有切割完成的直接放在一起； - 當limit=0時（預設值），會盡量多去分割，並且如果分割完的字元陣列末尾是空字串，會去除這個空字串； - 當limit<0時，會盡量多去分割，但不會去掉末尾的空字串。下面舉個列子： ```java String s1 = "部落格園|CSDN||"; String[] split1 = s1.split("\\|", 2); System.out.println("split1 length:" + split1.length); System.out.println("split1 content:" + Arrays.toString(split1)); String[] split2 = s1.split("\\|", 0); System.out.println("split2 length:" + split2.length); System.out.println("split2 content:" + Arrays.toString(split2)); String[] split3 = s1.split("\\|", -1); System.out.println("split3 length:" + split3.length); System.out.println("split3 content:" + Arrays.toString(split3)); System.out.println("---換一個複雜點的字串---"); s1 = "|部落格園||CSDN|自由之路ddd|"; split1 = s1.split("\\|", 2); System.out.println("split1 length:" + split1.length); System.out.println("split1 content:" + Arrays.toString(split1)); split2 = s1.split("\\|", 0); System.out.println("split2 length:" + split2.length); System.out.println("split2 content:" + Arrays.toString(split2)); split3 = s1.split("\\|", -1); System.out.println("split3 length:" + split3.length); System.out.println("split3 content:" + Arrays.toString(split3)); ``` 下面是輸出結果,對照著這個結果大家就應該能明白split方法的使用了 ```text split1 length:2 split1 content:[部落格園, CSDN|自由之路ddd|] split2 length:3 split2 content:[部落格園, CSDN, 自由之路ddd] split3 length:4 split3 content:[部落格園, CSDN, 自由之路ddd, ] ---換一個複雜點的字串--- split1 length:2 split1 content:[, 部落格園||CSDN|自由之路ddd|] split2 length:5 split2 content:[, 部落格園, , CSDN, 自由之路ddd] split3 length:6 split3 content:[, 部落格園, , CSDN, 自由之路ddd, ] ``` ## 總結 - String類被**final**關鍵字修飾，因此不能被繼承； - String的成員變數value使用final修飾，因此是不可變的，執行緒安全； - String中的方法對字串的操作都會生成一個新的String物件； - JDK9開始對String進行了優化，內部徹底使用byte[]陣列來代替char陣列。 ## 參考 - [Java 9 新特性 - Compact Strings](https://reionchan.github.io/2017/09/25/java-9-compact-string/) - [聊聊Java 9的Compact Strings](https://blog.csdn.net/weixin_34120274/article/details/91466378) - [Java11新增的String方法](https://www.jianshu.com/p/ab311687e3db) - [split第二個引數limit的用法](https://blog.csdn.net/wx1528159409/article/details/92796234) - [String之regionMatches方法](https://blog.csdn.net/ahence/article/details/27494457) - [String的格式化方法使用](https://www.cnblogs.com/fsjohnhuang/p/4094777.html#a7) ## 公眾號推薦歡迎大家關注我的微信公眾號「程式設計師自由之路」 ![](https://img2020.cnblogs.com/blog/1775037/202005/1775037-20200505091245079-544605853.jpg)

String原始碼淺析

String 原始碼淺析————終結篇

String 原始碼淺析

Java String 原始碼淺析

String原始碼淺析

重新去認識HashMap（Java8原始碼淺析）

Android Hook框架adbi原始碼淺析（二）

Android Hook框架adbi原始碼淺析（一）

小而美的Promise庫——promiz原始碼淺析

linux kernel(二)原始碼淺析

FileProvider使用以及原始碼淺析

[JDK1.7]LinkedHashMap原始碼淺析

Django-Rest-Framework 許可權管理原始碼淺析

併發程式設計：LinkedBlockingQueue原始碼淺析

Spark 2.x 提交Job原始碼淺析

java.lang.String原始碼分析

Java基礎—ArrayList原始碼淺析

ReentrantLock和condition原始碼淺析(一)

flask 原始碼淺析(flask 如何處理請求(多執行緒，多程序，IO多路複用))

優秀開源庫SDWebImage原始碼淺析

【深入淺出jQuery】原始碼淺析2--奇技淫巧

String原始碼淺析

相關推薦