1. 程式人生 > 其它 >Linux檔案型別

Linux檔案型別

目錄

一.簡介

在Linux系統下,有七類檔案型別:
普通檔案(-)
目錄(d)
軟連結(字元連結L)
套接字檔案(S)
字元裝置(S)
塊裝置(B)
管道檔案(命名管道P)
普通檔案、目錄、軟連結無需多解釋。

二.詳解

管道檔案

管道分為匿名管道和命名管道。管道都是一端寫入、另一端讀取,它們是單方向資料傳輸的,它們的資料都是直接在記憶體中傳輸的,管道是程序間通訊的一種方式,例如父程序寫,子程序讀。

在shell中匿名管道就是一個管道符號"|",例如ls | grep xxx,其中ls對應的程序是這個獨立程序組中的父程序,grep對應的程序是子程序,父程序寫子程序讀。

在程式語言中,匿名管道是通過建立兩個檔案控制代碼或檔案描述符(例如A、B)來實現的,一個檔案控制代碼用於寫資料(例如A寫入端,資料寫入A將自動推入B中),另一個檔案控制代碼用於讀資料(即B)。

對於命名管道,即有名稱的管道,命名管道將檔案保留在檔案系統中,它也稱為FIFO,也就是first in first out。雖然命名管道檔案保留在檔案系統中,但是這個檔案只是使用命名管道的一個入口,在使用命名管道傳輸資料的時候,仍然是在記憶體中進行的,也就是說並不會因為保留在檔案系統上命名管道的效率就低了。

在shell中,可以使用mknod命令或mkfifo命令建立命名管道,在寫某些特殊需求的shell指令碼時,命名管道非常有用。實際上,在Bash 4之後就支援協程(使用coproc命令)的功能了(ksh和zsh老早就支援協程),但是協程的需求都能通過命名管道來實現。

一般的管道都是單向通訊的,無法實現雙向通訊的功能,也就是隻能一邊寫一邊讀,不能兩邊都能讀、寫。如果要實現雙向通訊,可以建立兩根管道(這樣就有4個檔案控制代碼,兩個讀端,兩個寫端),或者使用更方便的套接字。

套接字(Socket)

套接字用來實現兩端通訊,正如上面分析的,可以實現雙向管道的程序間通訊功能。不僅如此,套接字還能通過網路實現跨主機的程序間通訊功能。

套接字需要成對才有意義,也就是分為兩端,每一端都有用於讀、寫的檔案描述符(或檔案控制代碼),相當於兩根雙向通訊的管道。

套接字根據協議族的方式分為兩大類:網路套接字(AF_INET型別,根據ipv4和ipv6分為inet4和inet6)和Unix Domain套接字(AF_UNIX型別)。當然,從協議族往下,套接字可細分為很多種型別,例如INET套接字可以分為TCP套接字、UDP套接字、鏈路層套接字、Raw套接字等等。其中網路套接字是網路程式設計的基礎和核心。

Unix Domain套接字

對於單機的程序間通訊,使用Unix Domain套接字比Inet套接字更好,因為Unix Domain套接字沒有網路通訊元件,也就是少了很多網路功能,它更加輕量級。實際上,某些語言在某些作業系統平臺上實現的管道功能就是通過Unix Domain來實現的,可想而知其高效率。

Unix Domain套接字有兩個檔案控制代碼(例如A、B),這兩個檔案控制代碼都是同時可讀、可寫的控制代碼。程序1向A寫入資料,將自動推送到B上,程序2可從B上讀取從A寫入的資料,同理程序2向B中寫入資料將自動推送到A上,程序1可從A上讀取從B寫入的資料。如下:

程序1            程序2
------------------------
A   ----------->  B
B   ----------->  A

在程式語言中,建立Unix Domain Socket自然有對應的函式輕鬆建立(可man socketpair)。對於bash shell,可以通過nc命令(NetCat)來建立,或者乾脆使用兩個命名管道來實現對應的功能。如有需要,可自行了解如何在bash shell中使用Unix Domain套接字。

網路套接字

對於跨網路的程序間通訊,需要使用網路套接字。每個網路套接字都由5部分組成,它們稱為套接字的5元組。格式如下:
{protocol, src_addr, src_port, dest_addr, dest_port}

即協議、源地址、源埠、目標地址、目標埠。

每端套接字在核心空間都有兩個buffer(即一對socket有4個buffer),每一端都有recv buffer和send buffer。程序1向自己的套接字的send buffer寫入資料,將傳送到對端的recv buffer中,然後對端的程序2就可以從recv buffer中讀取資料,反之亦然。

但是在真正可以讀、寫網路套接字之前,網路套接字還需要一些設定。服務端套接字建立(socket()函式,建立後就會有一個檔案控制代碼或檔案描述符供讀、寫操作)後,還要繫結地址(通過bind()函式)和監聽埠(通過listen()函式),客戶端則只需要建立套接字後,直接使用connect()函式向服務端套接字發起連線請求即可。

對於TCP套接字,客戶端發起連線請求即表示要和服務端進行三次握手(核心完成,和使用者空間程序無關)。將這三次握手的每一次進行細分,第一次客戶端傳送SYN請求,服務端接收到SYN後,核心將這個連線放進syn queue中並設定狀態為syn-recv,然後傳送ack+syn給客戶端,當接收到客戶端回覆ack後,核心將連線從syn queue移到established queue(或accept queue)中並將連線的狀態標記為established。最後等待使用者空間的程序發起accept()系統呼叫讓核心將其從accept queue中移除。被accept()後的連線表示已經建立好的連線,可以真正實現兩端程序間的資料傳輸。

塊裝置和字元裝置

塊裝置是硬體裝置,通過隨機(不一定是順序)訪問固定大小的資料塊(chunk)來區分。固定大小的chunk稱為塊(block)。最常見的塊裝置是硬碟,但也存在許多其他塊裝置,如軟盤驅動器、藍光閱讀器和快閃記憶體。注意,這些都是掛載檔案系統的裝置,檔案系統就像是塊裝置的通用語言。

字元裝置通過連續的流資料訪問,一個位元組接著一個位元組。典型的字元裝置是終端(終端分多種,由物理的也有虛擬的)和鍵盤。

區分塊裝置和字元裝置最簡單的方法是看資料訪問的方式。能隨機訪問獲取資料的是塊裝置,必須按位元組順序訪問的是字元裝置。

如果可以這裡讀一點資料,那裡讀一點資料,最後串成一整段連續的資料,那麼這個就是塊裝置,就像硬碟上的資料是不連續的,有可能需要通過隨機訪問的方式獲取一段資料。比如磁碟上一個稍大一點的檔案,可能前10k資料是連續的資料塊或在連續的扇區內,之後的10k資料在離它很遠甚至在不同的柱面上。

如果一段資料中的每個位元組都跟訪問時的位元組順序是一樣的,即位元組先後順序從訪問獲取時到最後處理資料的過程中都是完全一致的,那麼這個就是字元裝置。換句話說,字元裝置可以看作是流裝置。就像鍵盤輸入資料一樣,連續敲兩個字鍵,這兩個鍵對應的位元組資料在被接收的時候一定是先敲的在前面,後敲的在後面。同理終端裝置也是以一樣的,程式將資料輸出到終端時,程式先輸出字母a再輸出數字3,那麼顯示在終端上時一定是a在前,3在後。

本文版權歸作者所有,歡迎轉載,請務必新增原文連結。