java jdk提供字串切割工具類 StringTokenizer
首先,我們用下面的一段程式碼,去拼接出來一個用逗號分隔的超長字串,把從 0 開始一直到 9999 的每個數字都用逗號分隔,拼接成一個超長的字串,以便於我們可以進行實驗。
public class StringSplitTest { public static void main(String[] args) { String string = null; StringBuffer stringBuffer = new StringBuffer(); int max = 10000; for(int i = 0; i < max; i++) { stringBuffer.append(i);if(i < max - 1) { stringBuffer.append(","); } } string = stringBuffer.toString(); } }
接著我們可以用下面的程式碼來測試一下,如果用最基礎的 split 方法來對超長字串做切割,迴圈切割 1w 次,要耗費多長時間,看如下程式碼測試:
public class StringSplitTest { public static void main(String[] args) { String string= null; StringBuffer stringBuffer = new StringBuffer(); int max = 10000; for(int i = 0; i < max; i++) { stringBuffer.append(i); if(i < max - 1) { stringBuffer.append(","); } } string = stringBuffer.toString();long start = System.currentTimeMillis(); for(int i = 0; i < 10000; i++) { string.split(","); } long end = System.currentTimeMillis(); System.out.println(end - start); } }
經過上面程式碼的測試,最終發現用 split 方法對字串按照逗號進行切割,切割 1w 次是耗時 2000 多毫秒,這個不太固定,大概是 2300 毫秒左右。
StringTokenizer,這個工具是 JDK 提供的,也是專門用來進行字串切割的,他的效能會更好一些。
我們可以看下面的程式碼,用他來進行 1w 次字串切割,看看具體的效能測試結果如何:
import java.util.StringTokenizer; public class StringSplitTest { public static void main(String[] args) { String string = null; StringBuffer stringBuffer = new StringBuffer(); int max = 10000; for(int i = 0; i < max; i++) { stringBuffer.append(i); if(i < max - 1) { stringBuffer.append(","); } } string = stringBuffer.toString(); long start = System.currentTimeMillis(); for(int i = 0; i < 10000; i++) { string.split(","); } long end = System.currentTimeMillis(); System.out.println(end - start); start = System.currentTimeMillis(); StringTokenizer stringTokenizer = new StringTokenizer(string, ","); for(int i = 0; i < 10000; i++) { while(stringTokenizer.hasMoreTokens()) { stringTokenizer.nextToken(); } stringTokenizer = new StringTokenizer(string, ","); } end = System.currentTimeMillis(); System.out.println(end - start); } }
大家看上面的程式碼,用 StringTokenizer 可以通過 hasMoreTokens() 方法判斷是否有切割出的下一個元素,如果有就用 nextToken() 拿到這個切割出來的元素,一次全部切割完畢後,就重新建立一個新的 StringTokenizer 物件。
這樣連續切割 1w 次,經過測試之後,會發現用 StringTokenizer 切割字串 1w 次的耗時大概是 1900 毫秒左右。
大家感覺如何?是不是看到差距了?換一下切割字串的方式,就可以讓耗時減少 400~500ms,效能目前已經可以提升 20% 了。
接著我們來自己封裝一個切割字串的函式,用這個函式再來做一次字串切割看看。
private static void split(String string) { String remainString = string; int startIndex = 0; int endIndex = 0; while(true) { endIndex = remainString.indexOf(",", startIndex); if(endIndex <= 0) { break; } remainString.substring(startIndex, endIndex); startIndex = endIndex + 1; } }
上面那段程式碼是我們自定義的字串切割函式,大概意思是說,每一次切割都走一個 while 迴圈,startIndex 初始值是 0,然後每一次迴圈都找到從 startIndex 開始的下一個逗號的 index,就是 endIndex,基於 startIndex 和 endIndex 擷取一個字元串出來。
然後 startIndex 可以推進到本次 endIndex + 1 即可,下一次迴圈就會擷取下一個逗號之前的子字串了。
下面我們用用上述自定義的切割函式再次測試一下,如下程式碼:
import java.util.StringTokenizer; public class StringSplitTest { public static void main(String[] args) { String string = null; StringBuffer stringBuffer = new StringBuffer(); int max = 10000; for(int i = 0; i < max; i++) { stringBuffer.append(i); if(i < max - 1) { stringBuffer.append(","); } } string = stringBuffer.toString(); long start = System.currentTimeMillis(); for(int i = 0; i < 10000; i++) { string.split(","); } long end = System.currentTimeMillis(); System.out.println(end - start); start = System.currentTimeMillis(); StringTokenizer stringTokenizer = new StringTokenizer(string, ","); for(int i = 0; i < 10000; i++) { while(stringTokenizer.hasMoreTokens()) { stringTokenizer.nextToken(); } stringTokenizer = new StringTokenizer(string, ","); } end = System.currentTimeMillis(); System.out.println(end - start); start = System.currentTimeMillis(); for(int i = 0; i < 10000; i++) { split(string); } end = System.currentTimeMillis(); System.out.println(end - start); } private static void split(String string) { String remainString = string; int startIndex = 0; int endIndex = 0; while(true) { endIndex = remainString.indexOf(",", startIndex); if(endIndex <= 0) { break; } remainString.substring(startIndex, endIndex); startIndex = endIndex + 1; } } }
經過上述程式碼測試之後,我們自己寫的字串切割函式的耗時大概是在 1000ms 左右,相比較之下,比 String.split 方法的效能提升了 2 倍多,比 StringTokenizer 的效能也提升了 2 倍,如果要是字串更大呢?
其實字串越大,效能差距就會越多,可能會呈更大的倍數提升我們的效能!