java實現大文字檔案拆分

阿新 • • 發佈：2020-05-20

本文例項為大家分享了java實現大文字檔案拆分的具體程式碼，供大家參考，具體內容如下

生成大檔案

public static void createBigFile() throws IOException {
  File file = new File("/Users/yangpeng/Documents/temp/big_file.csv");
  FileWriter fileWriter = new FileWriter(file);
  BufferedWriter bufferedWriter = new BufferedWriter(fileWriter);
  String str = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa1";
  for (int i = 0; i < 1000000; i++) {
    bufferedWriter.write(str);
    bufferedWriter.newLine();
  }
  bufferedWriter.flush();
  bufferedWriter.close();
}

檔案拆分

此處沒有給出根據檔案大小計算需要拆分的檔案數量，所以這裡是給定一個拆分檔案數量

思路

思路：給定帶拆分數量，計算出每個檔案的平均位元組數，然後迴圈檔案數進行每個檔案的拆分。拆分第一個檔案時，根據平均位元組數往後取給定的大約行位元組數的位元組，然後迴圈位元組判斷是否為\r或者\n，如果位元組為\r或者\n則代表到達行末尾，記錄行尾位元組位置。知道了開頭位元組位置與結束位元組位置，就可以將此位置之間的資料生成子檔案了。繼續迴圈拆分下個檔案，基於上個檔案記錄的結束位元組位置繼續計算當前檔案的結束位置，直到到達拆分檔案的數量或者大檔案讀取完畢。

舉個栗子：

有一個3行記錄的檔案，假設每行記錄行位元組包含換行符的位元組數為100，也就是說這個檔案的總位元組數為300。

java實現大文字檔案拆分

我現在要將這個檔案拆分成2個。按照上面的思路，首先我需要計算出檔案的平均值300/2=150，這裡計算出的平均值並不是拆分出來的子檔案一定是150，因為這個數字位置的位元組有可能在一行的中間，那麼我要基於這個數字算出下個換行符出現的位置當做我這個子檔案的結束位。

java實現大文字檔案拆分

所以我給定一個行位元組數100+150=250，這個150到250之間的位元組我認為有換行符，所以我輪詢這100位元組，判斷是否為換行符，結果我輪到到50的位置發現了換行。

java實現大文字檔案拆分

那麼我這個第一個檔案的結束位置是150+50=200，然後將0到200之間的位元組生成第一個檔案。然後基於這個200的位置繼續拆分下個檔案，由於200+150已經大於了原始檔的大小，所以直接將200到300的資料生成一個子檔案。所以最終的結果是一二行為一個子檔案，三行為第二個子檔案。

程式碼

考慮到效能與記憶體佔用的問題，此處實現採用NIO

public static void splitFile(String filePath,int fileCount) throws IOException {
  FileInputStream fis = new FileInputStream(filePath);
  FileChannel inputChannel = fis.getChannel();
  final long fileSize = inputChannel.size();
  long average = fileSize / fileCount;//平均值
  long bufferSize = 200; //快取塊大小，自行調整
  ByteBuffer byteBuffer = ByteBuffer.allocate(Integer.valueOf(bufferSize + "")); // 申請一個快取區
  long startPosition = 0; //子檔案開始位置
  long endPosition = average < bufferSize ? 0 : average - bufferSize;//子檔案結束位置
  for (int i = 0; i < fileCount; i++) {
    if (i + 1 != fileCount) {
      int read = inputChannel.read(byteBuffer,endPosition);// 讀取資料
      readW:
      while (read != -1) {
        byteBuffer.flip();//切換讀模式
        byte[] array = byteBuffer.array();
        for (int j = 0; j < array.length; j++) {
          byte b = array[j];
          if (b == 10 || b == 13) { //判斷\n\r
            endPosition += j;
            break readW;
          }
        }
        endPosition += bufferSize;
        byteBuffer.clear(); //重置快取塊指標
        read = inputChannel.read(byteBuffer,endPosition);
      }
    }else{
      endPosition = fileSize; //最後一個檔案直接指向檔案末尾
    }

    FileOutputStream fos = new FileOutputStream(filePath + (i + 1));
    FileChannel outputChannel = fos.getChannel();
    inputChannel.transferTo(startPosition,endPosition - startPosition,outputChannel);//通道傳輸檔案資料
    outputChannel.close();
    fos.close();
    startPosition = endPosition + 1;
    endPosition += average;
  }
  inputChannel.close();
  fis.close();

}

public static void main(String[] args) throws Exception {
  Scanner scanner = new Scanner(System.in);
  scanner.nextLine();
  long startTime = System.currentTimeMillis();
  splitFile("/Users/yangpeng/Documents/temp/big_file.csv",5);
  long endTime = System.currentTimeMillis();
  System.out.println("耗費時間： " + (endTime - startTime) + " ms");
  scanner.nextLine();
}

使用NIO可以高效的實現檔案拆分，我的檔案為100W行大小為1.02G的文字檔案，拆分成5個子檔案總耗時1224ms

java實現大文字檔案拆分

後如下是使用jvisualvm監控的程式記憶體：

java實現大文字檔案拆分

可以看到拆分期間記憶體浮動基本在1M左右。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

java實現大文字檔案拆分

java實現大文字檔案拆分

java實現大檔案的分割與合併

java實現大檔案上傳

Java實現Sftp下載檔案功能

java實現上傳檔案型別檢測過程解析

java實現上傳檔案到oss(阿里雲)功能示例

基於Java實現PDF文字旋轉傾斜

Java實現上傳檔案到指定伺服器指定目錄（ChannelSftp實現檔案上傳下載）

使用java實現在下載檔案的過程中顯示進度條，簡單例子

用幾行python程式碼實現大量文字檔案裡的文字替換

大日誌檔案拆分

java實現建立批量檔案小指令碼程式碼

Java實現密碼、檔案MD5加密，密碼sha256、sha384、sha512Hex等加密

Java實現按行分割大檔案

Java大文字平行計算實現過程解析

java--swing介面實現註冊登入（用文字檔案儲存資料）

java 實現自定義 log 開啟 io 建立檔案將文字內容，寫入文字中，累加寫入最後關閉爬蟲服務方便記錄資料，放服務掛掉和對方限制ip,導致的中端，意外停止也無妨，資料正常記錄儲存

Java實現瀏覽器端大檔案分片上傳

java實現檔案上傳、下載、圖片預覽

Java實現檔案監控器FileMonitor的例項程式碼

java實現大文字檔案拆分

相關推薦