Python3標準庫glob檔名模式匹配的問題
1. glob檔名模式匹配
儘管glob API很小,但這個模組的功能卻很強大。只要程式需要查詢檔案系統中名字與某個模式匹配的一組檔案,就可以使用這個模組。要建立一個檔名列表,要求其中各個檔名都有某個特定的副檔名、字首或者中間都有某個共同的字串,就可以使用glob而不用編寫定製程式碼來掃描目錄內容。
glob的模式規則與re模組使用的正則表示式並不相同。實際上,glob的模式遵循標準UNIX路徑擴充套件規則。只使用幾個特殊字元來實現兩個不同的萬用字元和字元區間。模式規則應用於檔名中的段(在路徑分隔符/處截止)。
1.1 例項資料
本節中的示例假定當前工作目錄中存在以下測試檔案。
test_files test_files/file.txt test_files/file1.txt test_files/file2.txt test_files/filea.txt test_files/fileb.txt test_files/subfiles test_files/subfiles/subfile.txt
如果這些檔案不存在,請glob_maketestdata.py在執行以下示例之前使用示例程式碼建立它們。
1.2 萬用字元
星號(*)匹配一個檔名段中的0個或多個字元。例如,test_files/*。
import glob for name in sorted(glob.glob('test_files/*')): print(name)
這個模式會匹配目錄test_files中的所有路徑名(檔案或目錄),但不會進一步遞迴搜尋到子目錄。glob()返回的資料不會排序,所以這裡的例項會進行排序以便研究結果。
要列出子目錄中的檔案,必須把子目錄包含在模式中。
import glob print('Named explicitly:') for name in sorted(glob.glob('test_files/subfiles/*')): print(' {}'.format(name)) print('Named with wildcard:') for name in sorted(glob.glob('test_files/*/*')): print(' {}'.format(name))
前面顯示的第一種情況顯式列出了子目錄名,第二種情況則依賴一個萬用字元來查詢目錄。
在這裡,兩種做法的結果是一樣的。如果還有另一個子目錄,則萬用字元會匹配這兩個子目錄,並且兩個子目錄中的檔名都會出現在結果中。
1.3 單字元萬用字元
問號(?)也是一個萬用字元。它會匹配檔名中該位置的單個字元。
import glob for name in sorted(glob.glob('test_files/file?.txt')): print(name)
前面的例子會匹配以file開頭,然後是另外一個任意字元,最後以.txt結尾的所有檔名。
1.4 字元區間
如果使用字元區間([a-z])而不是問號,則可以匹配多個字元中的一個字元。下面這個例子會查詢名字中副檔名前有一個數字的所有檔案。
import glob for name in sorted(glob.glob('test_files/*[0-9].*')): print(name)
字元區間[0-9]會匹配所有單個數字。區間根據各字母/數字的字元碼排序,短橫線指示連續字元組成的一個不間斷區間。這個區間值也可以寫為[0123456789]。
1.5 轉義元字元
有時有必要搜尋名字中包含一些特殊元字元的檔案,glob使用這些特殊元字元表示模式。escape()函式會建立一個適合的模式,其中的特殊字元會被“轉義”,使它們不會被glob擴充套件或解釋為特殊字元。
import glob specials = '?*[' for char in specials: pattern = 'test_files/*' + glob.escape(char) + '.txt' print('Searching for: {!r}'.format(pattern)) for name in sorted(glob.glob(pattern)): print(name) print()
可以通過構建一個包含單個元素的字元區間來轉義各個特殊字元。
總結
到此這篇關於Python3標準庫glob檔名模式匹配的問題的文章就介紹到這了,更多相關python glob 檔名匹配內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!