Java零拷貝一步曲——Linux 中的零拷貝技術
引言
傳統的 Linux 作業系統的標準 I/O 介面是基於資料拷貝操作的,即 I/O 操作會導致資料在作業系統核心地址空間的緩衝區和應用程式地址空間定義的緩衝區之間進行傳輸。這樣做最大的好處是可以減少磁碟 I/O 的操作,因為如果所請求的資料已經存放在作業系統的高速緩衝儲存器中,那麼就不需要再進行實際的物理磁碟 I/O 操作。但是資料傳輸過程中的資料拷貝操作卻導致了極大的 CPU 開銷,限制了作業系統有效進行資料傳輸操作的能力。
零拷貝( zero-copy )這種技術可以有效地改善資料傳輸的效能,在核心驅動程式(比如網路堆疊或者磁碟儲存驅動程式)處理 I/O 資料的時候,零拷貝技術可以在某種程度上減少甚至完全避免不必要 CPU 資料拷貝操作。現代的 CPU 和儲存體系結構提供了很多特徵可以有效地實現零拷貝技術,但是因為儲存體系結構非常複雜,而且網路協議棧有時需要對資料進行必要的處理,所以零拷貝技術有可能會產生很多負面的影響,甚至會導致零拷貝技術自身的優點完全喪失。
為什麼需要零拷貝技術
如今,很多網路伺服器都是基於客戶端 - 伺服器這一模型的。在這種模型中,客戶端向伺服器端請求資料或者服務;伺服器端則需要響應客戶端發出的請求,併為客戶端提供它所需要的資料。隨著網路服務的逐漸普及,video 這類應用程式發展迅速。當今的計算機系統已經具備足夠的能力去處理 video 這類應用程式對客戶端所造成的重負荷,但是對於伺服器端來說,它應付由 video 這類應用程式引起的網路通訊量就顯得捉襟見肘了。而且,客戶端的數量增長迅速,那麼伺服器端就更容易成為效能瓶頸。而對於負荷很重的伺服器來說,作業系統通常都是引起效能瓶頸的罪魁禍首。舉個例子來說,當資料“寫”操作或者資料“傳送”操作的系統呼叫發出時,作業系統通常都會將資料從應用程式地址空間的緩衝區拷貝到作業系統核心的緩衝區中去。作業系統這樣做的好處是介面簡單,但是卻在很大程度上損失了系統性能,因為這種資料拷貝操作不單需要佔用 CPU 時間片,同時也需要佔用額外的記憶體頻寬。
一般來說,客戶端通過網路介面卡向伺服器端傳送請求,作業系統將這些客戶端的請求傳遞給伺服器端應用程式,伺服器端應用程式會處理這些請求,請求處理完成以後,作業系統還需要將處理得到的結果通過網路介面卡傳遞回去。
下邊這一小節會跟讀者簡單介紹一下傳統的伺服器是如何進行資料傳輸的,以及這種資料傳輸的處理過程存在哪些問題有可能會造成伺服器的效能損失
Linux中傳統伺服器進行資料傳輸的流程
Linux 中傳統的 I/O 操作是一種緩衝 I/O,I/O 過程中產生的資料傳輸通常需要在緩衝區中進行多次的拷貝操作。一般來說,在傳輸資料的時候,使用者應用程式需要分配一塊大小合適的緩衝區用來存放需要傳輸的資料。應用程式從檔案中讀取一塊資料,然後把這塊資料通過網路傳送到接收端去。使用者應用程式只是需要呼叫兩個系統呼叫 read() 和 write() 就可以完成這個資料傳輸操作,應用程式並不知曉在這個資料傳輸的過程中作業系統所做的資料拷貝操作。對於 Linux 作業系統來說,基於資料排序或者校驗等各方面因素的考慮,作業系統核心會在處理資料傳輸的過程中進行多次拷貝操作。在某些情況下,這些資料拷貝操作會極大地降低資料傳輸的效能。
當應用程式需要訪問某塊資料的時候,作業系統核心會先檢查這塊資料是不是因為前一次對相同檔案的訪問而已經被存放在作業系統核心地址空間的緩衝區內,如果在核心緩衝區中找不到這塊資料,Linux 作業系統核心會先將這塊資料從磁碟讀出來放到作業系統核心的緩衝區裡去。如果這個資料讀取操作是由 DMA 完成的,那麼在 DMA 進行資料讀取的這一過程中,CPU 只是需要進行緩衝區管理,以及建立和處理 DMA ,除此之外,CPU 不需要再做更多的事情,DMA 執行完資料讀取操作之後,會通知作業系統做進一步的處理。Linux 作業系統會根據 read() 系統呼叫指定的應用程式地址空間的地址,把這塊資料存放到請求這塊資料的應用程式的地址空間中去,在接下來的處理過程中,作業系統需要將資料再一次從使用者應用程式地址空間的緩衝區拷貝到與網路堆疊相關的核心緩衝區中去,這個過程也是需要佔用 CPU 的。資料拷貝操作結束以後,資料會被打包,然後傳送到網路介面卡上去。在資料傳輸的過程中,應用程式可以先返回進而執行其他的操作。之後,在呼叫 write() 系統呼叫的時候,使用者應用程式緩衝區中的資料內容可以被安全的丟棄或者更改,因為作業系統已經在核心緩衝區中保留了一份資料拷貝,當資料被成功傳送到硬體上之後,這份資料拷貝就可以被丟棄。
從上面的描述可以看出,在這種傳統的資料傳輸過程中,資料至少發生了四次拷貝操作,即便是使用了 DMA 來進行與硬體的通訊,CPU 仍然需要訪問資料兩次。在 read() 讀資料的過程中,資料並不是直接來自於硬碟,而是必須先經過作業系統的檔案系統層。在 write() 寫資料的過程中,為了和要傳輸的資料包的大小相吻合,資料必須要先被分割成塊,而且還要預先考慮包頭,並且要進行資料校驗和操作。
圖 1. 傳統使用 read 和 write 系統呼叫的資料傳輸
零拷貝(zero copy)技術概述
什麼是零拷貝?
簡單一點來說,零拷貝就是一種避免 CPU 將資料從一塊儲存拷貝到另外一塊儲存的技術。針對作業系統中的裝置驅動程式、檔案系統以及網路協議堆疊而出現的各種零拷貝技術極大地提升了特定應用程式的效能,並且使得這些應用程式可以更加有效地利用系統資源。這種效能的提升就是通過在資料拷貝進行的同時,允許 CPU 執行其他的任務來實現的。零拷貝技術可以減少資料拷貝和共享匯流排操作的次數,消除傳輸資料在儲存器之間不必要的中間拷貝次數,從而有效地提高資料傳輸效率。而且,零拷貝技術減少了使用者應用程式地址空間和作業系統核心地址空間之間因為上下文切換而帶來的開銷。進行大量的資料拷貝操作其實是一件簡單的任務,從作業系統的角度來說,如果 CPU 一直被佔用著去執行這項簡單的任務,那麼這將會是很浪費資源的;如果有其他比較簡單的系統部件可以代勞這件事情,從而使得 CPU 解脫出來可以做別的事情,那麼系統資源的利用則會更加有效。綜上所述,零拷貝技術的目標可以概括如下:
避免資料拷貝
- 避免作業系統核心緩衝區之間進行資料拷貝操作。
- 避免作業系統核心和使用者應用程式地址空間這兩者之間進行資料拷貝操作。
- 使用者應用程式可以避開作業系統直接訪問硬體儲存。
- 資料傳輸儘量讓 DMA 來做
將多種操作結合在一起
- 避免不必要的系統呼叫和上下文切換。
- 需要拷貝的資料可以先被快取起來。
- 對資料進行處理儘量讓硬體來做。
前文提到過,對於高速網路來說,零拷貝技術是非常重要的。這是因為高速網路的網路連結能力與 CPU 的處理能力接近,甚至會超過 CPU 的處理能力。如果是這樣的話,那麼 CPU 就有可能需要花費幾乎所有的時間去拷貝要傳輸的資料,而沒有能力再去做別的事情,這就產生了效能瓶頸,限制了通訊速率,從而降低了網路連結的能力。一般來說,一個 CPU 時鐘週期可以處理一位的資料。舉例來說,一個 1 GHz 的處理器可以對 1Gbit/s 的網路連結進行傳統的資料拷貝操作,但是如果是 10 Gbit/s 的網路,那麼對於相同的處理器來說,零拷貝技術就變得非常重要了。對於超過 1 Gbit/s 的網路連結來說,零拷貝技術在超級計算機叢集以及大型的商業資料中心中都有所應用。然而,隨著資訊科技的發展,1 Gbit/s,10 Gbit/s 以及 100 Gbit/s 的網路會越來越普及,那麼零拷貝技術也會變得越來越普及,這是因為網路連結的處理能力比 CPU 的處理能力的增長要快得多。傳統的資料拷貝受限於傳統的作業系統或者通訊協議,這就限制了資料傳輸效能。零拷貝技術通過減少資料拷貝次數,簡化協議處理的層次,在應用程式和網路之間提供更快的資料傳輸方法,從而可以有效地降低通訊延遲,提高網路吞吐率。零拷貝技術是實現主機或者路由器等裝置高速網路介面的主要技術之一。
現代的 CPU 和儲存體系結構提供了很多相關的功能來減少或避免 I/O 操作過程中產生的不必要的 CPU 資料拷貝操作,但是,CPU 和儲存體系結構的這種優勢經常被過高估計。儲存體系結構的複雜性以及網路協議中必需的資料傳輸可能會產生問題,有時甚至會導致零拷貝這種技術的優點完全喪失。在下一章中,我們會介紹幾種 Linux 作業系統中出現的零拷貝技術,簡單描述一下它們的實現方法,並對它們的弱點進行分析。
零拷貝技術分類
零拷貝技術的發展很多樣化,現有的零拷貝技術種類也非常多,而當前並沒有一個適合於所有場景的零拷貝技術的出現。對於 Linux 來說,現存的零拷貝技術也比較多,這些零拷貝技術大部分存在於不同的 Linux 核心版本,有些舊的技術在不同的 Linux 核心版本間得到了很大的發展或者已經漸漸被新的技術所代替。本文針對這些零拷貝技術所適用的不同場景對它們進行了劃分。概括起來,Linux 中的零拷貝技術主要有下面這幾種:
- 直接 I/O:對於這種資料傳輸方式來說,應用程式可以直接訪問硬體儲存,作業系統核心只是輔助資料傳輸:這類零拷貝技術針對的是作業系統核心並不需要對資料進行直接處理的情況,資料可以在應用程式地址空間的緩衝區和磁碟之間直接進行傳輸,完全不需要 Linux 作業系統核心提供的頁快取的支援。
- 在資料傳輸的過程中,避免資料在作業系統核心地址空間的緩衝區和使用者應用程式地址空間的緩衝區之間進行拷貝。有的時候,應用程式在資料進行傳輸的過程中不需要對資料進行訪問,那麼,將資料從 Linux 的頁快取拷貝到使用者程序的緩衝區中就可以完全避免,傳輸的資料在頁快取中就可以得到處理。在某些特殊的情況下,這種零拷貝技術可以獲得較好的效能。Linux 中提供類似的系統呼叫主要有 mmap(),sendfile() 以及 splice()。
- 對資料在 Linux 的頁快取和使用者程序的緩衝區之間的傳輸過程進行優化。該零拷貝技術側重於靈活地處理資料在使用者程序的緩衝區和作業系統的頁快取之間的拷貝操作。這種方法延續了傳統的通訊方式,但是更加靈活。在Linux中,該方法主要利用了寫時複製技術。
前兩類方法的目的主要是為了避免應用程式地址空間和作業系統核心地址空間這兩者之間的緩衝區拷貝操作。這兩類零拷貝技術通常適用在某些特殊的情況下,比如要傳送的資料不需要經過作業系統核心的處理或者不需要經過應用程式的處理。第三類方法則繼承了傳統的應用程式地址空間和作業系統核心地址空間之間資料傳輸的概念,進而針對資料傳輸本身進行優化。我們知道,硬體和軟體之間的資料傳輸可以通過使用 DMA 來進行,DMA 進行資料傳輸的過程中幾乎不需要 CPU 參與,這樣就可以把 CPU 解放出來去做更多其他的事情,但是當資料需要在使用者地址空間的緩衝區和 Linux 作業系統核心的頁快取之間進行傳輸的時候,並沒有類似 DMA 這種工具可以使用,CPU 需要全程參與到這種資料拷貝操作中,所以這第三類方法的目的是可以有效地改善資料在使用者地址空間和作業系統核心地址空間之間傳遞的效率。