1. 程式人生 > >Linux 處理資料檔案

Linux 處理資料檔案

排序

處理大量資料時的一個常用命令是 sort 命令。
sort 命令引數

引數 說明
-b –ignore-leading-blanks 排序時忽略起始的空白
-C –check=quiet 不排序,如果資料無序也不要報告
-c –check 不排序,但檢查輸入資料是不是已排序;未排序的話,報告
-d –dictionary-order 僅考慮空白和字母,不考慮特殊字元
-f –ignore-case 預設情況下,會將大寫字母排在前面;這個引數會忽略大小寫
-g –general-number-sort 按通用數值來排序(跟 -n 不同,把值當浮點數來排序,支援科學計數法表示的值)
-i –ignore-nonprinting 在排序時忽略不可列印字元
-k –key=POS1[,POS2] 排序從POS1位置開始;如果指定了POS2的話,到POS2位置結束
-M –month-sort 用三字元月份名按月份排序
-m –merge 將兩個已排序資料檔案合併
-n –numeric-sort 按字串數值來排序(並不轉換為浮點數)
-o –output=file 將排序結果寫出到指定的檔案中
-R –random-sort 按隨機生成的散列表的鍵值排序
–random-source=FILE 指定 -R 引數用到的隨機位元組的原始檔
-r –reverse 反序排序(升序變成降序)
-S –buffer-size=SIZE 指定使用的記憶體大小
-s –stable 禁用最後重排序比較
-T –temporary-directory=DIR 指定一個位置來儲存臨時工作檔案
-t –field-separator=SEP 指定一個用來區分鍵位置的字元
-u –unique 和 -c 引數一起使用時,檢查嚴格排序;不和 -c 引數一起用時,僅輸出第一例相似的兩行
-z –zero-terminated 用NULL字元作為行尾,而不是用換行符

搜尋資料

grep 命令會在輸入或指定的檔案中查詢包含匹配指定模式的字元的行。

壓縮資料

Linux檔案壓縮工具

名稱 字尾 描述
bzip2 .bz2 採用Burrows-Wheeler塊排序文字壓縮演算法和霍夫曼編碼
compress .Z 最初的Unix檔案壓縮工具,已經快沒人用了
gzip .gz GNU壓縮工具,用Lempel-Ziv編碼
zip .zip Windows上PKZIP工具的Unix實現

tar 命令最開始是用來將檔案寫到磁帶裝置上歸檔的,然而它也能把輸出寫到檔案裡,這種
用法在Linux上已經普遍用來歸檔資料了。

引數 說明
-A –concatenate 將一個已有tar歸檔檔案追加到另一個已有tar歸檔檔案
-c –create 建立一個新的tar歸檔檔案
-d –diff 檢查歸檔檔案和檔案系統的不同之處
–delete 從已有tar歸檔檔案中刪除
-r –append 追加檔案到已有tar歸檔檔案末尾
-t –list 列出已有tar歸檔檔案的內容
-u –update 將比tar歸檔檔案中已有的同名檔案新的檔案追加到該tar歸檔檔案中
-x –extract 從已有tar歸檔檔案中提取檔案
-C dir 切換到指定目錄
-f file 輸出結果到檔案或裝置 file
-j 將輸出重定向給 bzip2 命令來壓縮內容
-p 保留所有檔案許可權
-v 在處理檔案時顯示檔案
-z 將輸出重定向給 gzip 命令來壓縮內容

參考文獻
Linux命令列與shell指令碼程式設計大全