Java記憶體對映，上G大檔案輕鬆處理

阿新 • • 發佈：2019-08-14

記憶體對映檔案(Memory-mapped File)，指的是將一段虛擬記憶體逐位元組對映於一個檔案，使得應用程式處理檔案如同訪問主記憶體（但在真正使用到這些資料前卻不會消耗實體記憶體，也不會有讀寫磁碟的操作），這要比直接檔案讀寫快幾個數量級。

稍微解釋一下虛擬記憶體（很明顯，不是實體記憶體），它是計算機系統記憶體管理的一種技術。像施了妖法一樣使得應用程式認為它擁有連續的可用的記憶體，實際上呢，它通常是被分隔成多個實體記憶體的碎片，還有部分暫時儲存在外部磁碟儲存器上，在需要時進行資料交換。

記憶體對映檔案主要的用處是增加 I/O 效能，特別是針對大檔案。對於小檔案，記憶體對映檔案反而會導致碎片空間的浪費，因為記憶體對映總是要對齊頁邊界，最小單位是 4 KiB，一個 5 KiB 的檔案將會對映佔用 8 KiB 記憶體，也就會浪費 3 KiB 記憶體。

java.nio 包使得記憶體對映變得非常簡單，其中的核心類叫做 MappedByteBuffer，字面意思為對映的位元組緩衝區。

01、使用 MappedByteBuffer 讀取檔案

假設現在有一個檔案，名叫 cmower.txt，裡面的內容是：

沉默王二，一個有趣的程式設計師

PS：哎，改不了王婆賣瓜自賣自誇這個臭毛病了，因為文章被盜得都怕了。

這個檔案放在 /resource 目錄下，我們可以通過下面的方法獲取到它：

ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());

Path 既可以表示一個目錄，也可以表示一個檔案，就像 File 那樣——當然了，Path 是用來取代 File 的。

然後，從檔案中獲取一個 channel（通道，對磁碟檔案的一種抽象）。

FileChannel fileChannel = FileChannel.open(path);

緊接著，呼叫 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer，此類擴充套件了 ByteBuffer——提供了一些記憶體對映檔案的基本操作方法。

MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);

稍微解釋一下 map 方法的三個引數。

1）mode 為檔案對映模式，分為三種：

MapMode.READ_ONLY（只讀），任何試圖修改緩衝區的操作將導致丟擲 ReadOnlyBufferException 異常。
MapMode.READ_WRITE（讀/寫），任何對緩衝區的更改都會在某個時刻寫入檔案中。需要注意的是，其他對映同一個檔案的程式可能不能立即看到這些修改，多個程式同時進行檔案對映的行為依賴於作業系統。
MapMode.PRIVATE（私有），對緩衝區的更改不會被寫入到該檔案，任何修改對這個緩衝區來說都是私有的。

2）position 為檔案對映時的起始位置。

3）size 為要對映的區域的大小，必須是非負數，不得大於Integer.MAX_VALUE。

一旦把檔案對映到記憶體緩衝區，我們就可以把裡面的資料讀入到 CharBuffer 中並打印出來。具體的程式碼示例如下。

CharBuffer charBuffer = null;
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
try (FileChannel fileChannel = FileChannel.open(path)) {
    MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size());

    if (mappedByteBuffer != null) {
        charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer);
    }

    System.out.println(charBuffer.toString());
} catch (IOException e) {
    e.printStackTrace();
}

由於 decode() 方法的引數是 MappedByteBuffer，這就意味著我們是從記憶體中而不是磁碟中讀入的檔案內容，所以速度會非常快。

02、使用 MappedByteBuffer 寫入檔案

假設現在要把下面的內容寫入到一個檔案，名叫 cmower1.txt。

沉默王二，《Web全棧開發進階之路》作者

這個檔案還沒有建立，計劃放在專案的 classpath 目錄下。

 Path path = Paths.get("cmower1.txt");

具體位置見下圖所示。

然後，建立檔案的通道。

FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
                StandardOpenOption.TRUNCATE_EXISTING)

仍然使用的 open 方法，不過增加了 3 個引數，前 2 個很好理解，表示檔案可讀（READ）、可寫（WRITE）；第 3 個引數 TRUNCATE_EXISTING 的意思是如果檔案已經存在，並且檔案已經開啟將要進行 WRITE 操作，則其長度被截斷為 0。

緊接著，仍然呼叫 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。

 MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);

這一次，我們把模式調整為 MapMode.READ_WRITE，並且指定檔案大小為 1024，即 1KB 的大小。然後使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內容儲存到檔案中。具體的程式碼示例如下。

CharBuffer charBuffer = CharBuffer.wrap("沉默王二，《Web全棧開發進階之路》作者");

Path path = Paths.get("cmower1.txt");

try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
        StandardOpenOption.TRUNCATE_EXISTING)) {
    MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);

    if (mappedByteBuffer != null) {
        mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
    }

} catch (IOException e) {
    e.printStackTrace();
}

可以開啟 cmower1.txt 檢視一下內容，確認預期的內容有沒有寫入成功。

03、MappedByteBuffer 的遺憾

據說，在 Java 中使用 MappedByteBuffer 是一件非常麻煩並且痛苦的事，主要表現有：

1）一次 map 的大小最好限制在 1.5G 左右，重複 map 會增加虛擬記憶體回收和重新分配的壓力。也就是說，如果檔案大小不確定的話，就不太友好。

2）虛擬記憶體由作業系統來決定什麼時候重新整理到磁碟，這個時間不太容易被程式控制。

3）MappedByteBuffer 的回收方式比較詭異。

再次強調，這三種說法都是據說，我暫時能力有限，也不能確定這種說法的準確性，很遺憾。

04、比較檔案操作的處理時間

嗨，朋友，閱讀完以上的內容之後，我想你一定對記憶體對映檔案有了大致的瞭解。但我相信，如果你是一名負責任的程式設計師，你一定還想知道：記憶體對映檔案的讀取速度究竟有多快。

為了得出結論，我叫了另外三名競賽的選手：InputStream（普通輸入流）、BufferedInputStream（帶緩衝的輸入流）、RandomAccessFile（隨機訪問檔案）。

讀取的物件是加勒比海盜4驚濤怪浪.mkv，大小為 1.71G。

1）普通輸入流

public static void inputStream(Path filename) {
    try (InputStream is = Files.newInputStream(filename)) {
        int c;
        while((c = is.read()) != -1) {

        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

2）帶緩衝的輸入流

public static void bufferedInputStream(Path filename) {
    try (InputStream is = new BufferedInputStream(Files.newInputStream(filename))) {
        int c;
        while((c = is.read()) != -1) {

        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

3）隨機訪問檔案

public static void randomAccessFile(Path filename) {
    try (RandomAccessFile randomAccessFile  = new RandomAccessFile(filename.toFile(), "r")) {
        for (long i = 0; i < randomAccessFile.length(); i++) {
            randomAccessFile.seek(i);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

4）記憶體對映檔案

public static void mappedFile(Path filename) {
    try (FileChannel fileChannel = FileChannel.open(filename)) {
        long size = fileChannel.size();
        MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, size);
        for (int i = 0; i < size; i++) {
            mappedByteBuffer.get(i);
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

測試程式也很簡單，大致如下：

long start = System.currentTimeMillis();
bufferedInputStream(Paths.get("jialebi.mkv"));
long end = System.currentTimeMillis();
System.out.println(end-start);

四名選手的結果如下表所示。

方法	時間
普通輸入流	龜速，沒有耐心等出結果
隨機訪問檔案	龜速，沒有耐心等下去
帶緩衝的輸入流	29966
記憶體對映檔案	914

普通輸入流和隨機訪問檔案都慢得要命，真的是龜速，我沒有耐心等待出結果；帶緩衝的輸入流的表現還不錯，但相比記憶體對映檔案就遜色多了。由此得出的結論就是：記憶體對映檔案，上G大檔案輕鬆處理。

05、最後

本篇文章主要介紹了 Java 的記憶體對映檔案，MappedByteBuffer 是其靈魂，讀取速度快如火箭。另外，所有這些示例和程式碼片段都可以在 GitHub 上找到——這是一個 Maven 專案，所以它很容易匯入和執行。

Java記憶體對映，上G大檔案輕鬆處理

01、使用 MappedByteBuffer 讀取檔案

02、使用 MappedByteBuffer 寫入檔案

03、MappedByteBuffer 的遺憾

04、比較檔案操作的處理時間

05、最後

Java記憶體對映，上G大檔案輕鬆處理

Java NIO記憶體對映---上G大檔案處理

java springboot 切割分片上傳大檔案

使用uploadify控制元件上傳大檔案錯誤處理記錄

java 記憶體對映處理大檔案

藍鯨平臺本地上傳大檔案ERR_CONNECTION_RESE報錯處理client intended to send too large body:，server: paas.blueking.com

使用Git LFS上傳大檔案到GitHub教程，以及可能會遇到的坑（使用了Git LFS卻依然傳不上超過100M的檔案；framework庫如何新增等）

上傳大檔案，出現： 413 request Entity too Large錯誤的解決辦法

c#,Asp.net,dtcms上傳大檔案失敗,錯誤程式碼:http，Http error 404 解決方案

Java上傳大檔案的解決方案

上傳大檔案至阿里雲伺服器解決方案(理論上無限大檔案，支援批量處理)

HttpURLConnection上傳大檔案記憶體溢位的原因及解決辦法

JAVA Servlet 上傳批量上傳大檔案

KindEditor上傳大檔案，上傳錯誤

使用FineUploader 上傳大檔案設定IIS7檔案上傳的最大大小 maxAllowedContentLength，maxRequestLength

Nginx反向代理上傳大檔案報錯（failed to load resource : net :: ERR_CONNECTION_RESET）

secureCRT直接使用rz命令上傳大檔案失敗問題解決

python 動態陣列 list 記憶體對映，leetcode 707，真連結串列能打敗假連結串列嗎？

ASP.NET上傳大檔案404報錯

Java軟體開發者，如何學習大資料？

Java記憶體對映，上G大檔案輕鬆處理

01、使用 MappedByteBuffer 讀取檔案

02、使用 MappedByteBuffer 寫入檔案

03、MappedByteBuffer 的遺憾

04、比較檔案操作的處理時間

05、最後

相關推薦