Java記憶體對映,上G大檔案輕鬆處理
記憶體對映檔案(Memory-mapped File),指的是將一段虛擬記憶體逐位元組對映於一個檔案,使得應用程式處理檔案如同訪問主記憶體(但在真正使用到這些資料前卻不會消耗實體記憶體,也不會有讀寫磁碟的操作),這要比直接檔案讀寫快幾個數量級。
稍微解釋一下虛擬記憶體(很明顯,不是實體記憶體),它是計算機系統記憶體管理的一種技術。像施了妖法一樣使得應用程式認為它擁有連續的可用的記憶體,實際上呢,它通常是被分隔成多個實體記憶體的碎片,還有部分暫時儲存在外部磁碟儲存器上,在需要時進行資料交換。
記憶體對映檔案主要的用處是增加 I/O 效能,特別是針對大檔案。對於小檔案,記憶體對映檔案反而會導致碎片空間的浪費,因為記憶體對映總是要對齊頁邊界,最小單位是 4 KiB,一個 5 KiB 的檔案將會對映佔用 8 KiB 記憶體,也就會浪費 3 KiB 記憶體。
java.nio 包使得記憶體對映變得非常簡單,其中的核心類叫做 MappedByteBuffer,字面意思為對映的位元組緩衝區。
01、使用 MappedByteBuffer 讀取檔案
假設現在有一個檔案,名叫 cmower.txt,裡面的內容是:
沉默王二,一個有趣的程式設計師
PS:哎,改不了王婆賣瓜自賣自誇這個臭毛病了,因為文章被盜得都怕了。
這個檔案放在 /resource
目錄下,我們可以通過下面的方法獲取到它:
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
Path 既可以表示一個目錄,也可以表示一個檔案,就像 File 那樣——當然了,Path 是用來取代 File 的。
然後,從檔案中獲取一個 channel(通道,對磁碟檔案的一種抽象)。
FileChannel fileChannel = FileChannel.open(path);
緊接著,呼叫 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer,此類擴充套件了 ByteBuffer
——提供了一些記憶體對映檔案的基本操作方法。
MappedByteBuffer mappedByteBuffer = fileChannel.map(mode, position, size);
稍微解釋一下 map 方法的三個引數。
1)mode 為檔案對映模式,分為三種:
-
MapMode.READ_ONLY(只讀),任何試圖修改緩衝區的操作將導致丟擲 ReadOnlyBufferException 異常。
-
MapMode.READ_WRITE(讀/寫),任何對緩衝區的更改都會在某個時刻寫入檔案中。需要注意的是,其他對映同一個檔案的程式可能不能立即看到這些修改,多個程式同時進行檔案對映的行為依賴於作業系統。
-
MapMode.PRIVATE(私有), 對緩衝區的更改不會被寫入到該檔案,任何修改對這個緩衝區來說都是私有的。
2)position 為檔案對映時的起始位置。
3)size
為要對映的區域的大小,必須是非負數,不得大於Integer.MAX_VALUE
。
一旦把檔案對映到記憶體緩衝區,我們就可以把裡面的資料讀入到 CharBuffer 中並打印出來。具體的程式碼示例如下。
CharBuffer charBuffer = null;
ClassLoader classLoader = Cmower.class.getClassLoader();
Path path = Paths.get(classLoader.getResource("cmower.txt").getPath());
try (FileChannel fileChannel = FileChannel.open(path)) {
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, fileChannel.size());
if (mappedByteBuffer != null) {
charBuffer = Charset.forName("UTF-8").decode(mappedByteBuffer);
}
System.out.println(charBuffer.toString());
} catch (IOException e) {
e.printStackTrace();
}
由於 decode()
方法的引數是 MappedByteBuffer,這就意味著我們是從記憶體中而不是磁碟中讀入的檔案內容,所以速度會非常快。
02、使用 MappedByteBuffer 寫入檔案
假設現在要把下面的內容寫入到一個檔案,名叫 cmower1.txt。
沉默王二,《Web全棧開發進階之路》作者
這個檔案還沒有建立,計劃放在專案的 classpath 目錄下。
Path path = Paths.get("cmower1.txt");
具體位置見下圖所示。
然後,建立檔案的通道。
FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
StandardOpenOption.TRUNCATE_EXISTING)
仍然使用的 open 方法,不過增加了 3 個引數,前 2 個很好理解,表示檔案可讀(READ)、可寫(WRITE);第 3 個引數 TRUNCATE_EXISTING 的意思是如果檔案已經存在,並且檔案已經開啟將要進行 WRITE 操作,則其長度被截斷為 0。
緊接著,仍然呼叫 FileChannel 類的 map 方法從 channel 中獲取 MappedByteBuffer。
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
這一次,我們把模式調整為 MapMode.READ_WRITE,並且指定檔案大小為 1024,即 1KB 的大小。然後使用 MappedByteBuffer 中的 put() 方法將 CharBuffer 的內容儲存到檔案中。具體的程式碼示例如下。
CharBuffer charBuffer = CharBuffer.wrap("沉默王二,《Web全棧開發進階之路》作者");
Path path = Paths.get("cmower1.txt");
try (FileChannel fileChannel = FileChannel.open(path, StandardOpenOption.READ, StandardOpenOption.WRITE,
StandardOpenOption.TRUNCATE_EXISTING)) {
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_WRITE, 0, 1024);
if (mappedByteBuffer != null) {
mappedByteBuffer.put(Charset.forName("UTF-8").encode(charBuffer));
}
} catch (IOException e) {
e.printStackTrace();
}
可以開啟 cmower1.txt 檢視一下內容,確認預期的內容有沒有寫入成功。
03、MappedByteBuffer 的遺憾
據說,在 Java 中使用 MappedByteBuffer 是一件非常麻煩並且痛苦的事,主要表現有:
1)一次 map 的大小最好限制在 1.5G 左右,重複 map 會增加虛擬記憶體回收和重新分配的壓力。也就是說,如果檔案大小不確定的話,就不太友好。
2)虛擬記憶體由作業系統來決定什麼時候重新整理到磁碟,這個時間不太容易被程式控制。
3)MappedByteBuffer 的回收方式比較詭異。
再次強調,這三種說法都是據說,我暫時能力有限,也不能確定這種說法的準確性,很遺憾。
04、比較檔案操作的處理時間
嗨,朋友,閱讀完以上的內容之後,我想你一定對記憶體對映檔案有了大致的瞭解。但我相信,如果你是一名負責任的程式設計師,你一定還想知道:記憶體對映檔案的讀取速度究竟有多快。
為了得出結論,我叫了另外三名競賽的選手:InputStream(普通輸入流)、BufferedInputStream(帶緩衝的輸入流)、RandomAccessFile(隨機訪問檔案)。
讀取的物件是加勒比海盜4驚濤怪浪.mkv,大小為 1.71G。
1)普通輸入流
public static void inputStream(Path filename) {
try (InputStream is = Files.newInputStream(filename)) {
int c;
while((c = is.read()) != -1) {
}
} catch (IOException e) {
e.printStackTrace();
}
}
2)帶緩衝的輸入流
public static void bufferedInputStream(Path filename) {
try (InputStream is = new BufferedInputStream(Files.newInputStream(filename))) {
int c;
while((c = is.read()) != -1) {
}
} catch (IOException e) {
e.printStackTrace();
}
}
3)隨機訪問檔案
public static void randomAccessFile(Path filename) {
try (RandomAccessFile randomAccessFile = new RandomAccessFile(filename.toFile(), "r")) {
for (long i = 0; i < randomAccessFile.length(); i++) {
randomAccessFile.seek(i);
}
} catch (IOException e) {
e.printStackTrace();
}
}
4)記憶體對映檔案
public static void mappedFile(Path filename) {
try (FileChannel fileChannel = FileChannel.open(filename)) {
long size = fileChannel.size();
MappedByteBuffer mappedByteBuffer = fileChannel.map(MapMode.READ_ONLY, 0, size);
for (int i = 0; i < size; i++) {
mappedByteBuffer.get(i);
}
} catch (IOException e) {
e.printStackTrace();
}
}
測試程式也很簡單,大致如下:
long start = System.currentTimeMillis();
bufferedInputStream(Paths.get("jialebi.mkv"));
long end = System.currentTimeMillis();
System.out.println(end-start);
四名選手的結果如下表所示。
方法 | 時間 |
---|---|
普通輸入流 | 龜速,沒有耐心等出結果 |
隨機訪問檔案 | 龜速,沒有耐心等下去 |
帶緩衝的輸入流 | 29966 |
記憶體對映檔案 | 914 |
普通輸入流和隨機訪問檔案都慢得要命,真的是龜速,我沒有耐心等待出結果;帶緩衝的輸入流的表現還不錯,但相比記憶體對映檔案就遜色多了。由此得出的結論就是:記憶體對映檔案,上G大檔案輕鬆處理。
05、最後
本篇文章主要介紹了 Java 的記憶體對映檔案,MappedByteBuffer 是其靈魂,讀取速度快如火箭。另外,所有這些示例和程式碼片段都可以在 GitHub 上找到——這是一個 Maven 專案,所以它很容易匯入和執行。