Linux:檔案解壓、複製和移動的若干坑
Linux下進行檔案的解壓、複製、移動應該是最常見的操作了。尤其是我們在專案中使用大量的資料集檔案(比如機器學習)時。然而使用這些命令時一不留神就會掉進坑裡,這篇文章我們就來細數用Shell進行檔案操作的這些坑。
將檔案單個地進行壓縮與解壓
Linux下壓縮檔案的常見副檔名包括.gz
,.tar
,.tar.gz
, .zip
等。這些壓縮格式都能夠跨平臺(Windows/Mac/Linux)使用。下面我們以.zip
檔案為例子來講解。我們已知一個文字檔案壓縮包test.zip
,想把它解壓,很簡單,執行unzip
命令即可:
orion-orion@MacBook-Pro Learn-Linux % unzip test.zip Archive: test.zip inflating: test.txt
如果我們想要將test.txt
重新壓縮呢?你可能情不自禁會執行zip test.txt
,然後我們發現提示:
orion-orion@MacBook-Pro Learn-Linux % zip test.txt zip warning: missing end signature--probably not a zip file (did you zip warning: remember to use binary mode when you transferred it?) zip warning: (if you are trying to read a damaged archive try -F) zip error: Zip file structure invalid (test.txt)
其實是傳引數傳錯了,導致zip
誤把test.txt
當成壓縮後的檔名了,這當然不是合法的。我們看zip
的引數構成:
zip [-options] [-b path] [-t mmddyyyy] [-n suffixes] [zipfile list] [-xi list]
[-b path]
是壓縮後的.zip
檔案的路徑,zipfile list
是待壓縮的檔案列表。於是,我們這樣寫即可成功壓縮:
orion-orion@MacBook-Pro Learn-Linux % zip test2.zip test.txt
adding: test.txt (stored 0%)
當然,zip
也支援將多個檔案壓縮:
orion-orion@MacBook-Pro Learn-Linux % zip test3.zip test.txt test2.txt
adding: test.txt (stored 0%)
adding: test2.txt (stored 0%)
此時我們發現再解壓test3.zip
會發現重新得到了兩個原始檔案:
orion-orion@MacBook-Pro Learn-Linux % unzip test3.zip
Archive: test3.zip
extracting: test.txt
extracting: test2.txt
zip
也支援對目錄壓縮,如我們嘗試壓縮test
目錄:
orion-orion@MacBook-Pro Learn-Linux % zip test4.zip test
adding: test/ (stored 0%)
此時再解壓test4.zip
則會重新生成test
目錄:
orion-orion@MacBook-Pro Learn-Linux % unzip test4.zip
Archive: test4.zip
creating: test/
不過,zip
是將輸入的檔案列表分別進行壓縮的操作,即是對目錄來進行壓縮也是對目錄內的所有檔案one-by-one的操作。那我們需要將很多檔案先打包成一個檔案,然後再壓縮呢?此時就要用到tar
了。
tar:打包命令
很多人誤解tar
是個壓縮命令,其實壓縮命令是gzip
、xz
以及我們上文提到的zip
這些。tar
是個打包命令,只不過附帶壓縮與解壓的功能。tar
的選項多如牛毛,為了減輕大家的記憶負擔,我們只介紹下面兩個選項:
-c
: 建立打包檔案(可搭配-v
將過程中打包的檔案視覺化);
-x
:解包或解壓縮的功能(可搭配-C
在特定目錄解壓);
(其實還有表示通過gzip進行壓縮/解壓縮的-z
,通過bzip2的支援進行壓縮/解壓縮的-j
,通過xz的支援進行壓縮解壓縮的-J
等,但我們這裡統一用.zip
示範,就省去這些引數了)
那麼,我們只需要記住下面的命令即可:
壓縮: tar -cv -f filename.zip 要被壓縮的檔案或目錄名稱
解壓縮:tar -xv -f filename.zip -C 欲解壓的目錄(這個目錄必須已經存在)
注意,壓縮傳參順序是壓縮後的.zip檔案在前,壓縮前的檔案在後,別搞錯了。(讓人聯想到gcc編譯器,不過gcc
傳參時規定是-o output_file.out
的形式來指定輸出的可執行檔案,就回避了這個順序問題)
比如,我們要將test
資料夾(該資料夾下有一個test.txt
檔案)壓縮,可以執行如下命令:
orion-orion@MacBook-Pro Learn-Linux % tar -cv -f test4.zip test
a test
a test/test.txt
然後將其解壓到當前目錄,可執行如下命令:
orion-orion@MacBook-Pro Learn-Linux % tar -xv -f test4.zip -C .
x test/
x test/test.txt
對多個檔案壓縮:
orion-orion@MacBook-Pro Learn-Linux % tar -cv -f test3.zip test.txt test2.txt
a test.txt
a test2.txt
然後將其解壓到當前目錄:
orion-orion@MacBook-Pro Learn-Linux % tar -xv -f test3.zip -C .
x test.txt
x test2.txt
由上面所說,zip
/unzip
和tar
都是壓縮什麼解壓出來就是什麼,原來是目錄就是目錄,原來沒目錄不會幫你自動生成一個目錄,但Linux或Mac系統的視覺化壓縮工具就不一樣了(在Mac中被稱為「歸檔實用工具」)。Mac中對目錄壓縮時壓縮命令和tar
命令是等效的,比如我們想用Mac自帶的壓縮工具壓縮test
資料夾:
它會自動幫我們生成一個名為歸檔.zip
的檔案:
然後,如果此時我們嘗試對歸檔.zip
檔案進行解壓,會發現系統會自動幫我們生成一個名為歸檔
的資料夾:
這在對大量檔案操作時需要額外注意,否則會白白開銷你一次拷貝檔案的時間!
檔案拷貝
我們緊接上面的情景。假設我們當前的目錄為專案目錄,而我們手滑使用了系統自帶的視覺化解壓工具生成了一個多餘的目錄。我們接下來要把系統生成的多餘的歸檔
資料夾裡的檔案拷貝到當前目錄,那麼我們可以使用帶r
引數的cp
命令:
orion-orion@MacBook-Pro Learn-Linux % cp -r 歸檔/ .
orion-orion@MacBook-Pro Learn-Linux % ls
test.txt test2.txt 歸檔
這裡-r
引數表示遞迴複製命令,用於目錄的遞迴複製。注意命令中的歸檔/
表示歸檔
目錄下的所有檔案,意思和歸檔/*
相同:
orion-orion@MacBook-Pro Learn-Linux % cp -r 歸檔/* .
orion-orion@MacBook-Pro Learn-Linux % ls
test.txt test2.txt 歸檔
選項引數-r
寫成-R
是等效的:
orion-orion@MacBook-Pro Learn-Linux % cp -R 歸檔/* .
orion-orion@MacBook-Pro Learn-Linux % ls
test.txt test2.txt 歸檔
但如果直接傳入引數歸檔
,則表示將這個目錄整個地複製:
orion-orion@MacBook-Pro Learn-Linux % cp -r 歸檔 .
cp: ./歸檔 and 歸檔 are identical (not copied).
同一個目錄下不可能有兩個相同名稱的子目錄,這當然就會出錯,當然我們可以將其複製到另外一個目錄裡:
orion-orion@MacBook-Pro Learn-Linux % cp -r 歸檔 /tmp
orion-orion@MacBook-Pro Learn-Linux % ls /tmp |grep 歸檔
歸檔
你可能要問,加r
和不加r
有啥區別?如果不加r
,則預設是跳過目錄的,也就是說只能copy檔案:
orion-orion@MacBook-Pro Learn-Linux % cp 歸檔/ .
cp: 歸檔/ is a directory (not copied).
orion-orion@MacBook-Pro Learn-Linux % cp 歸檔 /tmp
cp: 歸檔 is a directory (not copied).
檔案移動
我們還是緊接著上面的場景。假定我們已經將歸檔
資料夾中的test.txt
、test2.txt
成功拷貝到當前專案目錄了。現在我們有了個新的需求:我們在專案目錄中建了一個data
子目錄,現在需要將專案目錄中的test.txt
、test2.txt
移動到data
子目錄中。這就需要如下命令:
orion-orion@MacBook-Pro Learn-Linux % mv test2.txt test.txt data
orion-orion@MacBook-Pro Learn-Linux % ls data
test.txt test2.txt
注意,如果有多個原始檔或目錄,則最後一個目標檔案(也就是這裡的data)一定是目錄。當我們只移動一個檔案時,就有潛在的二義性。這裡因為data
目錄本身存在,我們移動test.txt
到data
目錄還能正常執行:
orion-orion@MacBook-Pro Learn-Linux % mv test.txt data
orion-orion@MacBook-Pro Learn-Linux % ls data
test.txt
但是如果data目錄不存在,就會將mv
解釋為重新命名的意思,比如如果我們將data
目錄刪除再執行:
orion-orion@MacBook-Pro Learn-Linux % mv test.txt data
此時就等效於把test.txt
更名為data
檔案:
orion-orion@MacBook-Pro Learn-Linux % ls -l|grep data
-rw-r--r-- 1 orion-orion staff 0 4 20 22:01 data
可以看出,第一個字母是-
,也就意味著data
是普通檔案,不是目錄(是目錄的話第一個字母是d
)。
因此,使用mv
語句時要格外小心,因為它既有移動到目錄的作用,也有重新命名的作用,一不注意就可能出錯!
引用
- [1] https://stackoverflow.com/questions/10773880/how-to-create-tar-gz-archive-file-in-windows
- [2] https://support.apple.com/zh-cn/guide/terminal/apdc52250ee-4659-4751-9a3a-8b7988150530/mac
- [3] 鳥哥. 鳥哥的 Linux 私房菜: 基礎學習篇[M]. 人民郵電出版社, 2018.