常用文字處理命令

一、awk
- 基本句式
- 過濾記錄
- 指定分隔符
- 特殊關鍵字：
- 正則
- 輸出到不同的檔案
- 和環境變數的互動
二、grep
三、sed
四、sort和uniq
五、實戰
- 處理以下檔案內容,將域名取出並進行計數排序,如處理:
- awk例子

Linux中很多文字工具都使用到了正則表示式，正則表示式可以極大的簡化linux系統管理工作，因為網上有很多正則相關的教程，所以這裡不再講述，我當時看的是菜鳥的正則表示式，看個一下午在實驗幾遍基本就會了，除了正向肯定預查，反向肯定預查這幾個比較複雜一些，其他都是非常簡單的，很多時候記不住也可以查詢網上對著寫，並不需要你實時記住。這裡主要談談awk等用到正則表示式的文字處理工具。

一、awk

awk的指令必須包含在單引號中。

基本句式

awk -F'指定輸入分隔符' 'BEGIN{做一些初始化工作} 一些過濾條件 {針對每行的工作}... END{最後收尾工作}'

中間的處理塊可以有多個，通過過濾條件單每行都會走一遍過濾條件，其中BEGIN和END邊只會執行一遍

過濾記錄

awk '$3==0 && $6=="LISTEN" ' netstat.txt
awk '$3==0 && $6=="LISTEN" || NR==1 ' netstat.txt

指定分隔符

awk -F: '{print $1,$3,$6}' /etc/passwd

等價於awk 'BEGIN{FS=":"} {print $1,$3,$6}' /etc/passwd
awk -F '[;:]' 指定多個分隔符
awk -F: '{print $1,$3,$6}' OFS="\t" /etc/passwd指定輸出分隔符

需要注意的是上面print $1,$3,$6中的,被替換成了分隔符，如果是print $1$3$6則中間沒有分隔符

特殊關鍵字：

NR 目前處理的行號
NF 當前處理的行一共用到的欄位數目
FNR 目前處理的檔案的行號（當處理多個檔案時，NR會不停的累加，但如果是FNR則在處理新檔案是從1開始）
FILENAME 檔名

$0 當前整行
FS 輸入欄位分隔符預設是空格或Tab
RS 輸入記錄分隔符預設為換行符
OFS 輸出欄位分隔符預設是空格或Tab
ORS 輸出記錄分隔符預設為換行符

正則

普通匹配： awk'/hello/ {print}' test.sh
匹配取反： awk '!/hello/ {print}' test.sh
同時匹配： awk '/hello/ && /world/ {print}' test.sh
或者匹配： awk '/hello/ || /world/ {print}' test.sh 也可以寫成awk '/hello|world/ {print}' test.sh
指定列匹配： awk '$5 ~ /hello/ {print}' test.sh
指定列匹配取反： awk '$5 !~ /hello/ {print}' test.sh

輸出到不同的檔案

$ awk 'NR!=1{if($6 ~ /TIME|ESTABLISHED/) print > "1.txt"; else if($6 ~ /LISTEN/) print > "2.txt"; else print > "3.txt" }' netstat.txt
awk 'NR!=1{print > $6}' netstat.txt

其實使用了 >重定向,上例子使用了if語句

統計資料： awk 'NR!=1{a[$6]++;} END {for (i in a) print i ", " a[i];}' netstat.txt
行數篩選，開頭和結尾的條件使用,分隔： awk '/test1/,/test2/ {print}' test.txt

和環境變數的互動

$ x=5
 
$ y=10
$ export y
 
$ echo $x $y
5 10
$ awk -v val=$x '{print $1, $2, $3, $4+val, $5+ENVIRON["y"]}' OFS="\t" score.txt
Marry   2143    78      89      87
Jack    2321    66      83      55
Tom     2122    48      82      81
Mike    2537    87      102     105
Bob     2415    40      62      72

二、grep

引數列表：

-w 匹配整個單詞
-s 忽略檔案不存在等報錯
-l 僅列出匹配檔案列表
-L 僅列出不匹配檔案列表
-A 顯示後的行數如-1 匹配行的後1行
-B 顯示前的行數如-1 匹配行的前1行
-number 顯示前後的行數如-1 匹配行的前後1行
-n 列印行數
-c 僅顯示個數
-v 反向
-o 僅顯示匹配的內容
-E 則表示要使用EREs
-P 則表示要使用PREs

grep主要就是一個正則表示式的使用，其中需要注意正則有三種BREs、EREs和PREs。前兩種不支援非貪婪匹配。grep預設是BREs，所以他?,+,|,{,},（,）
這種字元都需要用\轉義，另外他不支援\s，\S，\D，\d,\n等字元。

三、sed

sed命令在自動化指令碼編寫的過程還是經常用到的。

基本句式： sed -nfei [操作]

操作： n1,n2 動作

動作：

d：刪除
s：替換，行內替換，行內匹配的字串，如hello world該行替換hello為hi變成hi world
a和i： a增加在匹配的後面增加行 i增加在匹配的前面增加行
c ：替換，針對整行替換

例子：

sed -e 's/hello/hi/g':替換文字,-e可以省略
sed -e '1,2s/hello/hi/g' -e '3,4s/world/man/g:等價於sed -e '1,2s/hello/hi/g；3,4s/world/man/g
sed s/hello $world$/\1 hi/g':群組匹配，可以使用\n選擇前面的群組

四、sort和uniq

sort引數

-r：預設升序，-r表示反序
-u：移除重複
-o：重定向到檔案，注意sort test.txt >test.txt不可用，因為> 是想清空檔案，所以會導致檔案在排序之前就清空了
-n：預設按字元排序，如10小於2，-n表示按數字排序
-t：指定分隔符
-k：指明用哪一列來做排序
-b：忽略每行前面開始出的空格字元

例子：

sort -t $'\t' -k 1 -u res.txt > res2.txt 以tab作為分隔符，按第一列排序並去重

uniq引數

需要注意uniq需要文字是有序的，所以一般使用uniq的時候是用更早sort的管道後面

-c：顯示出現的次數
-d：僅顯示重複出現行；　　　
-u ：僅顯示出一次的行列；

說說sort|uniq 和sort -u,一直覺得很奇怪，兩者有什麼區別，功能是一樣的。sort -u是後面加入的，所以很多人還是使用了sort|uniq，
目前推薦使用sort -u，因為還少了程序間通訊。

五、實戰

處理以下檔案內容,將域名取出並進行計數排序,如處理:

http://www.baidu.com/index.html
http: / / www.baidu.com/1.html
http://post.baidu.com/index.html
http://mp3.baidu.com/index.html
http://www.baidu.com/3.html
http://post.baidu.com/2.html
得到如下結果:
3 www.baidu.com
2 post.baidu.com
1 mp3.baidu.com

解法1：grep -Po '(?<=//)(.*?)(?=/)' test.txt |sort |uniq -c|sort -nr

1.利用了Perl，他支援非貪婪，2.利用了正向和反向預查（正向預查是後面的(?=)) 3.利用了-o引數只輸出匹配的內容

解法2：awk -F/ '{print $3}' test.txt |sort |uniq -c|sort -nr

指明瞭分割符號直接取對應值

解法3：sed 's/http:\/\/$[^/]*$.*/\1/' test.txt|sort |uniq -c|sort -nr

基本的正則中小括號需要轉義，如果採用-r引數即擴充套件的正則小括號不用轉義

解法4： sed -e 's/http:\/\///' -e 's/\/.*//' | sort | uniq -c | sort -rn

採用了替換，先替換前面的，在替換後面的

awk例子

需要注意awk不支援多維陣列，採用了一種變通的方式，普通的使用沒問題，但是如果需要存的值是一個map就不合適了，如下
檔案 1-6列分別為deal od sum up lj day ，現在要計算sum up lj day 的累加和輸出
輸出也要是deal od sum up lj day也就是sum up lj day需要是一個map，不過awk做不到這點

{
    updealids:{
        od: {day,sum,up,lj}
        
    }
}
awk 'BEGIN{OFS="\t"}{result[$1,$3,"sum"]+=$4;result[$1,$3,"up"]+=$5;result[$1,$3,"lj"]+=$6;result[$1,$3,"day"]=$2}\
END{for ( i in result)   {split(i, a, SUBSEP); print result[i] ,a[1], a[2], a[3] }}'  *

參考資料：

AWK 簡明教程
SED 簡明教程

相關推薦

常用文字處理命令

目錄一、awk 基本句式過濾記錄指定分隔符特殊關鍵字：正則輸出到不同的檔案和環境變數的互動二、

常用批處理命令總結3之Find和FindStr

ttr 計算例如 ber 文件名忽略大小寫 cap 應該 dst @echo offfindstr /V "[4-4]" all210.txt > no4.txtpause::註釋 /n是顯示出來第幾行！查不帶4的可註冊的域名 find 作

Linux之文字處理命令

Sort 將檔案的每一行作為一個單位，相互比較，比較原則是從首字元向後，依次按ASCII碼值進行比較，最後將他們按升序輸出。 &nb

linux系統之常用檔案處理命令

(一)檔案命名規則 (二)常用檔案處理命令 1.ls命令 2.cd命令 3.pwd命令 4.mkdir命令 5.touch命令 6.cp命令 7.mv命令 8.rm命令 9.cat命令 10.more命令 11.head命令 12.tail命令 13.ln命令 &

Linux高階文字處理命令

cut 一、cut命令　　功能：cut命令可以從一個文字檔案/文字流中提取文字列　　語法：　　cut -d '分割字元' -f fields　　##用於有特定分割字元　　cut -c 字元區間　　##用於排列整齊的資訊　　選項與引數： -d：後面接分隔字元。與 -f 一起使用；

Linux 系統之文字處理命令

---恢復內容開始--- Linux 系統之文字處理命令 (一)基於關鍵字搜尋 (二)基於列處理文字 (三)文字統計 (四)文字排序 (五)刪除重複行 (六)文字比較 (七)處理文字內容 (八)搜尋替換 (一)基於關鍵字搜尋

shell的簡單文字處理命令

######################## 6.文字處理 ####################### (1)grep -i (條件)##忽略大小寫 -v ##條件取反 -c ##統計匹配行數 -q ##靜默，無輸出成功就是yes失敗就是no -n ##顯

linux——高階文字處理命令之wc、cut、sort

1. wc ：Word Count 　　命令的功能為統計指定檔案中的位元組數、字數、行數，並將統計結果顯示輸出　　1.1 命令格式：　　　　wc [選項]檔案... 　　1.2 命令引數：　　　　-c 統計位元組數。　　　　-l 統計行

常用文字操作命令

1. tr 按列替換 echo "{123}" | tr -d '{}' 刪除輸入中的 “{” 和 “}” cat testfile |tr a-z A-Z 將檔案testfile中的小寫字母全部轉換成大寫字母 2. cut : cut [-b] [f

Linux文字處理命令--cut分割檔案和sed查詢替換的運用

今天遇到一個數據檔案需要處理，文字約1萬行，檔案每行都是以$字元進行分隔的各種資料列，每行38列。我需要取其中的某一些列，基本都集中在前10列。最初的想法是使用UltraEdit工具進行處理，使用正則表示式查找出了每行中間所需要的內容，無奈UE只支援按行復制

全網最詳細的Linux命令系列-sed文字處理命令

Sed簡介 SED是一個非互動式文字編輯器，它可對文字檔案和標準輸入進行編輯，標準輸入可以來自鍵盤輸入、文字重定向、字串、變數，甚至來自於管道的文字，與VIM編輯器類似，它一次處理一行內容，Sed可以編輯一個或多個檔案，簡化對檔案的反覆操作、編寫轉換程式等。 Sed命令的原理：在處理文字時把當前處理的行儲存在

程式設計小技巧之 Linux 文字處理命令（二）

合格的程式設計師都善於使用工具，正所謂君子性非異也，善假於物也。合理的利用 Linux 的命令列工具，可以提高我們的工作效率。本篇文章是[《Linux 文字處理命令》](http://remcarpediem.net/article/45ef130c/) 續篇，在前文的基礎上再介紹幾款有用的 Linux

linux文字處理常用命令

linux文字處理命令：grep、sed、printf、awk 1.grep grep的作用是按行查詢字元，輸出包含字元的行。 #從檔案查詢 grep 'hello' filename.txt #從管道的輸入查詢 cat filename.txt|grep 'hell

MATLAB 常用數據處理命令

記錄 media sort 向量排列行號常用 ascend des 1. 元素排序： sort（X）返回一個對X中的元素按升序排列的新向量 [Y,I]=sort（A,dim,mode）若dim=1，則按列排；若dim=2，則按行排（dim默認為1）若mode=as

Linux常用基本指令——文件處理命令

查看文件內容總結 original 廣告 linu 處理查看公眾號 spa 書籍方面的推薦就不做介紹，免得別人說我有廣告嫌疑。大家可以直接上百度，書籍和視頻遍地都是，Linux這些方面的知識都是自己在學習視頻和看書的總結，內容上可能會不完美。如果有更多的見解，歡迎直

rpm與yum命令、定時任務和sed文字處理

1、簡述rpm與yum命令的常見選項，並舉例rpm命令：語法：rpm [OPTIONS] [PACKAGE_FILE] 選項：安裝: -i, --install 升級: -U, --update,-F, --freshen 解除安裝: -e, --erase 查詢: -q

文字處理工具 sed命令

我們聊聊linux的另一個文字處理工具Sed。 Sed簡介 sed：是一個編輯器，是一個強大的檔案處理工具。 sed作用：用來替換、刪除，更新檔案中的內容。sed能自動處理一個或多個檔案。 sed原理：sed以文字的行為單位進行處理，一次處理一行內容。首先sed把當前處理的行儲存

python——常用功能之文字處理

前言在生活、工作中，python一直都是一個好幫手。在python的眾多功能中，我覺得文字處理是最常用的。下面是平常使用中的一些總結。環境是python 3.3 0. 基礎在python中，使用str物件來儲存字串。str物件的建立很簡單，使用單引號或雙引號或3個單引號即

【linux】--- 高階命令列文字處理工具 sort

二、sort命令 sort 命令對 File 引數指定的檔案中的行排序，並將結果寫到標準輸出。如果 File 引數指定多個檔案，那麼 sort 命令將這些檔案連線起來，並當作一個檔案進行排序。選項與引數： -f ：忽略大小寫的差異，例如 A 與 a 視為編碼相同

【linux】--- 高階命令列文字處理工具 cut

第一： cut命令 cut ：可以從一個文字檔案或者文字流中提取文字列 echo $PATH 選項 -b：僅顯示行中指定直接範圍的內容； -c：僅顯示行中指定範圍的字元； -d：指定欄位的分隔符，預設的欄位分隔符為“TAB”； -f：顯示指定欄位的內容； --comple