java jdk提供字串切割工具類 StringTokenizer

阿新 • • 發佈：2022-04-01

首先，我們用下面的一段程式碼，去拼接出來一個用逗號分隔的超長字串，把從 0 開始一直到 9999 的每個數字都用逗號分隔，拼接成一個超長的字串，以便於我們可以進行實驗。

public class StringSplitTest {

    public static void main(String[] args) {
        String string = null;
        StringBuffer stringBuffer = new StringBuffer();

        int max = 10000;
        for(int i = 0; i < max; i++) {
            stringBuffer.append(i);
             
if(i < max - 1) {
                stringBuffer.append(",");
            }
        }
        string = stringBuffer.toString();
    }

}

接著我們可以用下面的程式碼來測試一下，如果用最基礎的 split 方法來對超長字串做切割，迴圈切割 1w 次，要耗費多長時間，看如下程式碼測試：

public class StringSplitTest {

    public static void main(String[] args) {
        String string  
= null;
        StringBuffer stringBuffer = new StringBuffer();

        int max = 10000;
        for(int i = 0; i < max; i++) {
            stringBuffer.append(i);
            if(i < max - 1) {
                stringBuffer.append(",");
            }
        }
        string = stringBuffer.toString();

         
long start = System.currentTimeMillis();
        for(int i = 0; i < 10000; i++) {
            string.split(",");
        }
        long end = System.currentTimeMillis();
        System.out.println(end - start);
    }

}

經過上面程式碼的測試，最終發現用 split 方法對字串按照逗號進行切割，切割 1w 次是耗時 2000 多毫秒，這個不太固定，大概是 2300 毫秒左右。

StringTokenizer，這個工具是 JDK 提供的，也是專門用來進行字串切割的，他的效能會更好一些。

我們可以看下面的程式碼，用他來進行 1w 次字串切割，看看具體的效能測試結果如何：

import java.util.StringTokenizer;

public class StringSplitTest {

    public static void main(String[] args) {
        String string = null;
        StringBuffer stringBuffer = new StringBuffer();

        int max = 10000;
        for(int i = 0; i < max; i++) {
            stringBuffer.append(i);
            if(i < max - 1) {
                stringBuffer.append(",");
            }
        }
        string = stringBuffer.toString();

        long start = System.currentTimeMillis();
        for(int i = 0; i < 10000; i++) {
            string.split(",");
        }
        long end = System.currentTimeMillis();
        System.out.println(end - start);

        start = System.currentTimeMillis();
        StringTokenizer stringTokenizer =
                new StringTokenizer(string, ",");
        for(int i = 0; i < 10000; i++) {
            while(stringTokenizer.hasMoreTokens()) {
                stringTokenizer.nextToken();
            }
            stringTokenizer = new StringTokenizer(string, ",");
        }
        end = System.currentTimeMillis();
        System.out.println(end - start);
    }

}

大家看上面的程式碼，用 StringTokenizer 可以通過 hasMoreTokens() 方法判斷是否有切割出的下一個元素，如果有就用 nextToken() 拿到這個切割出來的元素，一次全部切割完畢後，就重新建立一個新的 StringTokenizer 物件。

這樣連續切割 1w 次，經過測試之後，會發現用 StringTokenizer 切割字串 1w 次的耗時大概是 1900 毫秒左右。

大家感覺如何？是不是看到差距了？換一下切割字串的方式，就可以讓耗時減少 400~500ms，效能目前已經可以提升 20% 了。

接著我們來自己封裝一個切割字串的函式，用這個函式再來做一次字串切割看看。

private static void split(String string) {
  String remainString = string;
  int startIndex = 0;
  int endIndex = 0;
  while(true) {
    endIndex = remainString.indexOf(",", startIndex);
    if(endIndex <= 0) {
      break;
    }
    remainString.substring(startIndex, endIndex);
    startIndex = endIndex + 1;
  }
}

上面那段程式碼是我們自定義的字串切割函式，大概意思是說，每一次切割都走一個 while 迴圈，startIndex 初始值是 0，然後每一次迴圈都找到從 startIndex 開始的下一個逗號的 index，就是 endIndex，基於 startIndex 和 endIndex 擷取一個字元串出來。

然後 startIndex 可以推進到本次 endIndex + 1 即可，下一次迴圈就會擷取下一個逗號之前的子字串了。

下面我們用用上述自定義的切割函式再次測試一下，如下程式碼：

import java.util.StringTokenizer;

public class StringSplitTest {

    public static void main(String[] args) {
        String string = null;
        StringBuffer stringBuffer = new StringBuffer();

        int max = 10000;
        for(int i = 0; i < max; i++) {
            stringBuffer.append(i);
            if(i < max - 1) {
                stringBuffer.append(",");
            }
        }
        string = stringBuffer.toString();

        long start = System.currentTimeMillis();
        for(int i = 0; i < 10000; i++) {
            string.split(",");
        }
        long end = System.currentTimeMillis();
        System.out.println(end - start);

        start = System.currentTimeMillis();
        StringTokenizer stringTokenizer =
                new StringTokenizer(string, ",");
        for(int i = 0; i < 10000; i++) {
            while(stringTokenizer.hasMoreTokens()) {
                stringTokenizer.nextToken();
            }
            stringTokenizer = new StringTokenizer(string, ",");
        }
        end = System.currentTimeMillis();
        System.out.println(end - start);

        start = System.currentTimeMillis();
        for(int i = 0; i < 10000; i++) {
            split(string);
        }
        end = System.currentTimeMillis();
        System.out.println(end - start);
    }

    private static void split(String string) {
        String remainString = string;
        int startIndex = 0;
        int endIndex = 0;
        while(true) {
            endIndex = remainString.indexOf(",", startIndex);
            if(endIndex <= 0) {
                break;
            }
            remainString.substring(startIndex, endIndex);
            startIndex = endIndex + 1;
        }
    }

}

經過上述程式碼測試之後，我們自己寫的字串切割函式的耗時大概是在 1000ms 左右，相比較之下，比 String.split 方法的效能提升了 2 倍多，比 StringTokenizer 的效能也提升了 2 倍，如果要是字串更大呢？

其實字串越大，效能差距就會越多，可能會呈更大的倍數提升我們的效能！

java jdk提供字串切割工具類 StringTokenizer

java jdk提供字串切割工具類 StringTokenizer

Java中操作字串的工具類-判空、擷取、格式化、轉換駝峰、轉集合和list、是否包含

Java世界最常用的工具類庫

JAVA 16位ID生成工具類含16位不重複的隨機數數字+大小寫

java中的Arrays這個工具類你真的會用嗎

java中的Arrays這個工具類你真的會用嗎(一文秒懂)

Elasticsearch Java High Level REST Client工具類

java TreeUtil選單遞迴工具類

java身份證合法性校驗工具類例項程式碼

java之操作集合的工具類--Collections

Java身份證號碼校驗工具類詳解

Java開發 AES加解密工具類

Java中常用的集合工具類

Java實現的分頁工具類與用法示例

13-07 Java語言基礎（常用工具類之Calendar類）

13-05 Java語言基礎（常用工具類之BigInteger類 & BigDecimal類）

java讀取簡單excel通用工具類

深入淺析Java常用的格式化Json工具類

Java 開發必會的工具類，程式碼量立減90%

Java 構建樹狀結構工具類

java jdk提供字串切割工具類 StringTokenizer

相關推薦