詳解 Python檔案與IO操作
目錄
1.2 使用read()、 readline()或者readlines()讀文字檔案
1 檔案輸入/輸出
資料持久化最簡單的型別是普通檔案,有時也叫平面檔案(flat file)。它僅僅是在一個檔名下的位元組流, 把資料從一個檔案讀入記憶體,然後從記憶體寫入檔案。 Python 很容易實現這些檔案操作,它模仿熟悉的和流行的 Unix 系統的操作。
讀寫一個檔案之前需要開啟它:
fileobj = open(filename, mode)
下面是對該 open() 呼叫的簡單解釋:
• fileobj 是 open() 返回的檔案物件;
• filename 是該檔案的字串名;
• mode 是指明檔案型別和操作的字串。
mode 的第一個字母表明對其的操作。
• r 表示讀模式。
• w 表示寫模式。如果檔案不存在則新建立,如果存在則重寫新內容。
• x 表示在檔案不存在的情況下新建立並寫檔案。
• a 表示如果檔案存在,在檔案末尾追加寫內容。
mode 的第二個字母是檔案型別:
• t(或者省略)代表文字型別;
• b 代表二進位制檔案。
開啟檔案之後就可以呼叫函式來讀寫資料,之後的例子會涉及。
最後需要關閉檔案。
另外一個問題是關於換行符的識別問題,在Unix和Windows中是不一樣的(分別是n和rn)。 預設情況下,
Python會以統一模式處理換行符。 這種模式下,在讀取文字的時候,Python可以識別所有的普通換行符
並將其轉換為單個 \n 字元。 類似的,在輸出時會將換行符 \n 轉換為系統預設的換行符。 如果你不希
望這種預設的處理方式,可以給 open() 函式傳入引數 newline='' ,就像下面這樣:
1.1 使用write()寫文字檔案
出於一些原因,我們沒有太多的關於狹義相對論的五行打油詩(limerick1)。下面這首作為源資料:
類似的,為了寫入一個文字檔案,使用帶有 wt 模式的 open() 函式,如果之前檔案內容存在則清除並覆蓋掉。
以下程式碼將整首詩寫到檔案 'relativity' 中:
函式 write() 返回寫入檔案的位元組數。和 print() 一樣,它沒有增加空格或者換行符。同樣,你也可以在一個文字檔案中使用 print():
這就產生了一個問題:到底是使用 write() 還是 print() ? print() 預設會在每個引數後面新增空格, 在每行結束處新增換行。 在之前的例子中,它在檔案 relativity 中預設添加了一個換行。為了使 print() 與 write() 有同樣的輸出,傳入下面兩個引數。
• sep 分隔符:預設是一個空格 ' '
• end 結束字元:預設是一個換行符 '\n'
除非自定義引數,否則 print() 會使用預設引數。在這裡,我們通過空字串替換 print()新增的所有多餘輸出:
如果源字串非常大,可以將資料分塊,直到所有字元被寫入:
第一次寫入 100 個字元,然後寫入剩下的 50 個字元。
1.2 使用read()、 readline()或者readlines()讀文字檔案
你可以按照下面的示例那樣,使用不帶引數的 read() 函式一次讀入檔案的所有內容。但在讀入檔案時要格外注意, 1 GB 的檔案會用到相同大小的記憶體。
同樣也可以設定最大的讀入字元數限制 read() 函式一次返回的大小。下面一次讀入 100 個字元,然後把每一塊拼接成原來的字串 poem:
讀到檔案結尾之後,再次呼叫 read() 會返回空字串(''), if not fragment 條件被判為False。此時會跳出 while True 的迴圈。 當然,你也能使用 readline() 每次讀入檔案的一行。在下一個例子中,通過追加每一行拼接成原來的字串 poem:
對於一個文字檔案,即使空行也有 1 字元長度(換行字元 '\n'),自然就會返回 True。當檔案讀取結束後, readline()(類似 read())同樣會返回空字串,也被 while True 判為 False。
讀取文字檔案最簡單的方式是使用一個迭代器(iterator),它會每次返回一行。這和之前的例子類似,但程式碼會更短:
前面所有的示例最終都返回單個字串 poem。函式 readlines() 呼叫時每次讀取一行,並返回單行字串的列表:
1.3 使用write()寫二進位制檔案
如果檔案模式字串中包含 'b',那麼檔案會以二進位制模式開啟。這種情況下,讀寫的是位元組而不是字串。
我們手邊沒有二進位制格式的詩,所以直接在 0~255 產生 256 位元組的值:
以二進位制模式開啟檔案,並且一次寫入所有的資料:
再次, write() 返回到寫入的位元組數。
對於文字,也可以分塊寫二進位制資料:
1.4 使用read()讀二進位制檔案
下面簡單的例子只需要用 'rb' 開啟檔案即可:
1.5 使用with自動關閉檔案
如果你忘記關閉已經開啟的一個檔案, 在該檔案物件不再被引用之後 Python 會關掉此檔案。這也就意味著在一個函式中開啟檔案, 沒有及時關閉它,但是在函式結束時會被關掉。然而你可能會在一直執行中的函式或者程式的主要部分開啟一個檔案, 應該強制剩下的所有寫操作完成後再關閉檔案。
Python 的上下文管理器(context manager)會清理一些資源,例如開啟的檔案。它的形式為 with expression as variable:
完成上下文管理器的程式碼後,檔案會被自動關閉。
1.6 使用其他分隔符或行終止符列印
可以使用在 print() 函式中使用 sep 和 end 關鍵字引數,以你想要的方式輸出。 比如:
使用 end 引數也可以在輸出中禁止換行。 比如:
當你想使用非空格分隔符來輸出資料的時候,給 print() 函式傳遞一個 seq 引數是最簡單的方案。
有時候你會看到一些程式設計師會使用 str.join() 來完成同樣的事情。 比如:
str.join() 的問題在於它僅僅適用於字串。 這意味著你通常需要執行另外一些轉換才能讓它正常工
作。 比如:
你當然可以不用那麼麻煩,僅僅只需要像下面這樣寫:
1.8 讀寫位元組資料
問題:
你想讀寫二進位制檔案,比如圖片,聲音檔案等等。
解決方案:
使用模式為 rb 或 wb 的 open() 函式來讀取或寫入二進位制資料。 比如
在讀取二進位制資料時,需要指明的是所有返回的資料都是位元組字串格式的,而不是文字字串。 類似的,在寫入的時候,必須保證引數是以位元組形式對外暴露資料的物件(比如位元組字串,位元組陣列物件等)。
如果你想從二進位制模式的檔案中讀取或寫入文字資料,必須確保要進行解碼和編碼操作。 比如:
2.1 檔案路徑名的操作
問題:
你需要使用路徑名來獲取檔名,目錄名,絕對路徑等等。
解決方案:
使用 os.path 模組中的函式來操作路徑名。 下面是一個互動式例子來演示一些關鍵的特性:
對於任何的檔名的操作,你都應該使用 os.path 模組,而不是使用標準字串操作來構造自己的程式碼。 特別是為了可移植性考慮的時候更應如此,因為 os.path 模組知道Unix和Windows系統之間的差異並且能夠可靠地處理類似 Data/data.csv 和 Data\data.csv 這樣的檔名。 其次,你真的不應該浪費時間去重複造輪子。 通常最好是直接使用已經為你準備好的功能。
要注意的是 os.path 還有更多的功能在這裡並沒有列舉出來。 可以查閱官方文件來獲取更多與檔案測試,符號連結等相關的函式說明。
2.2 測試檔案是否存在
問題:
你想測試一個檔案或目錄是否存在。
解決方案:
使用 os.path 模組來測試一個檔案或目錄是否存在。 比如:
你還能進一步測試這個檔案時什麼型別的。 在下面這些測試中,如果測試的檔案不存在的時候,結果都會返回False:
2.3 獲取資料夾中的檔案列表
問題:
你想獲取檔案系統中某個目錄下的所有檔案列表。
解決方案:
使用 os.listdir() 函式來獲取某個目錄中的檔案列表:
結果會返回目錄中所有檔案列表,包括所有檔案,子目錄,符號連結等等。 如果你需要通過某種方式過濾
資料,可以考慮結合 os.path 庫中的一些函式來使用列表推導。 比如:
字串的 startswith() 和 endswith() 方法對於過濾一個目錄的內容也是很有用的。 比如:
2.3 重新命名和刪除檔案
rename()方法
rename()方法需要兩個引數,當前的檔名和新檔名。
語法:
os.rename(current_file_name, new_file_name)
remove()方法
你可以用remove()方法刪除檔案,需要提供要刪除的檔名作為引數。
語法:
os.remove(file_name)
2.4 目錄操作
mkdir()方法
可以使用os模組的mkdir()方法在當前目錄下建立新的目錄們。你需要提供一個包含了要建立的目錄名稱的引數。
語法:
os.mkdir("newdir")
chdir()方法
可以用chdir()方法來改變當前的目錄。chdir()方法需要的一個引數是你想設成當前目錄的目錄名稱。
getcwd()方法
getcwd()方法顯示當前的工作目錄。
rmdir()方法
rmdir()方法刪除目錄,目錄名稱以引數傳遞。在刪除這個目錄之前,它的所有內容應該先被清除。