1. 程式人生 > 程式設計 >java實現大文字檔案拆分

java實現大文字檔案拆分

本文例項為大家分享了java實現大文字檔案拆分的具體程式碼,供大家參考,具體內容如下

生成大檔案

public static void createBigFile() throws IOException {
  File file = new File("/Users/yangpeng/Documents/temp/big_file.csv");
  FileWriter fileWriter = new FileWriter(file);
  BufferedWriter bufferedWriter = new BufferedWriter(fileWriter);
  String str = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa1";
  for (int i = 0; i < 1000000; i++) {
    bufferedWriter.write(str);
    bufferedWriter.newLine();
  }
  bufferedWriter.flush();
  bufferedWriter.close();
}

檔案拆分

此處沒有給出根據檔案大小計算需要拆分的檔案數量,所以這裡是給定一個拆分檔案數量

思路

思路:給定帶拆分數量,計算出每個檔案的平均位元組數,然後迴圈檔案數進行每個檔案的拆分。拆分第一個檔案時,根據平均位元組數往後取給定的大約行位元組數的位元組,然後迴圈位元組判斷是否為\r或者\n,如果位元組為\r或者\n則代表到達行末尾,記錄行尾位元組位置。知道了開頭位元組位置與結束位元組位置,就可以將此位置之間的資料生成子檔案了。繼續迴圈拆分下個檔案,基於上個檔案記錄的結束位元組位置繼續計算當前檔案的結束位置,直到到達拆分檔案的數量或者大檔案讀取完畢。

舉個栗子:

有一個3行記錄的檔案,假設每行記錄行位元組包含換行符的位元組數為100,也就是說這個檔案的總位元組數為300。

java實現大文字檔案拆分

我現在要將這個檔案拆分成2個。按照上面的思路,首先我需要計算出檔案的平均值300/2=150,這裡計算出的平均值並不是拆分出來的子檔案一定是150,因為這個數字位置的位元組有可能在一行的中間,那麼我要基於這個數字算出下個換行符出現的位置當做我這個子檔案的結束位。

java實現大文字檔案拆分

所以我給定一個行位元組數100+150=250,這個150到250之間的位元組我認為有換行符,所以我輪詢這100位元組,判斷是否為換行符,結果我輪到到50的位置發現了換行。

java實現大文字檔案拆分

那麼我這個第一個檔案的結束位置是150+50=200,然後將0到200之間的位元組生成第一個檔案。然後基於這個200的位置繼續拆分下個檔案,由於200+150已經大於了原始檔的大小,所以直接將200到300的資料生成一個子檔案。所以最終的結果是一二行為一個子檔案,三行為第二個子檔案。

程式碼

考慮到效能與記憶體佔用的問題,此處實現採用NIO

public static void splitFile(String filePath,int fileCount) throws IOException {
  FileInputStream fis = new FileInputStream(filePath);
  FileChannel inputChannel = fis.getChannel();
  final long fileSize = inputChannel.size();
  long average = fileSize / fileCount;//平均值
  long bufferSize = 200; //快取塊大小,自行調整
  ByteBuffer byteBuffer = ByteBuffer.allocate(Integer.valueOf(bufferSize + "")); // 申請一個快取區
  long startPosition = 0; //子檔案開始位置
  long endPosition = average < bufferSize ? 0 : average - bufferSize;//子檔案結束位置
  for (int i = 0; i < fileCount; i++) {
    if (i + 1 != fileCount) {
      int read = inputChannel.read(byteBuffer,endPosition);// 讀取資料
      readW:
      while (read != -1) {
        byteBuffer.flip();//切換讀模式
        byte[] array = byteBuffer.array();
        for (int j = 0; j < array.length; j++) {
          byte b = array[j];
          if (b == 10 || b == 13) { //判斷\n\r
            endPosition += j;
            break readW;
          }
        }
        endPosition += bufferSize;
        byteBuffer.clear(); //重置快取塊指標
        read = inputChannel.read(byteBuffer,endPosition);
      }
    }else{
      endPosition = fileSize; //最後一個檔案直接指向檔案末尾
    }

    FileOutputStream fos = new FileOutputStream(filePath + (i + 1));
    FileChannel outputChannel = fos.getChannel();
    inputChannel.transferTo(startPosition,endPosition - startPosition,outputChannel);//通道傳輸檔案資料
    outputChannel.close();
    fos.close();
    startPosition = endPosition + 1;
    endPosition += average;
  }
  inputChannel.close();
  fis.close();

}

public static void main(String[] args) throws Exception {
  Scanner scanner = new Scanner(System.in);
  scanner.nextLine();
  long startTime = System.currentTimeMillis();
  splitFile("/Users/yangpeng/Documents/temp/big_file.csv",5);
  long endTime = System.currentTimeMillis();
  System.out.println("耗費時間: " + (endTime - startTime) + " ms");
  scanner.nextLine();
}

使用NIO可以高效的實現檔案拆分,我的檔案為100W行大小為1.02G的文字檔案,拆分成5個子檔案總耗時1224ms

java實現大文字檔案拆分

後如下是使用jvisualvm監控的程式記憶體:

java實現大文字檔案拆分

可以看到拆分期間記憶體浮動基本在1M左右。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。