awk命令介紹和常見使用方法
awk、sed、grep這三個命令並稱為文本處理三劍客,但是awk的功能遠遠多出其他兩個命令很多。最初由貝爾實驗室研制。後來GUN組織在awk的基礎上研制了gawk,現在我們在Linux使用的一般都是gawk這個命令,但是為了一些習慣,將awk作為gawk的鏈接,也就是說,現在在bash中使用awk還是使用gawk都是一樣的。接下來為了方便,直接稱之為awk。
那麽awk到底好在哪裏呢?它的好處是在於使用這個命令可以進行簡單的編程,在使用別的命令的時候需要寫一個腳本才能實現的功能,使用這個命令就可以直接實現。下面簡單的介紹這個命令的格式:
awk [options] ‘program‘ file...
program部分可以是: pattern{action statement;...}
pattern部分可以是:BEGIN,END,用來決定動作語句何時觸發及通過什麽事件觸發,比如如果這裏是“BEGIN”那麽就是在這個命令執行之前執行,同理,“END”是在這個命令執行完畢後執行。“BEGIN”和“END0”都是可以選擇的,沒有也可以;
action statement 部分可以是:print,printf,它們是對數據進行處理的語句,通常放在一對{}之中,決定著在執行這個命令之後產生的數據如何的表達。
在使用awk對數據進行處理時,會根據特定的標識對數據進行分段,這種特定標識就是分隔符,默認是空白字符,可以通過“-F”來進行指定。經過分隔符分隔之後的每一個小分段,都稱為一個分段(Field);默認awk會使用內置位置變量來存儲各個字段的值;這些變量就是$1,$2,$3,...$N;由換行符分隔的數據中的每一行,就是一個記錄;在awk處理數據的時候,使用$0保存整行的內容。
常用選項
-F:用來指明此次數據處理的字段分隔符,默認是空白分隔符
-v:var=value:用於自定義變量和為自定義變量賦初始值
對於變量,我們可以自己定義,也可以使用命令自己的變量,命令自己的變量有很多,比如:
FS:input field seperator,輸入字段分隔符,默認空白字符
示例:
~]# awk -v FS=‘:‘ ‘{print $1}‘ /etc/passwd
OFS:outpit field seperator,輸入字段分隔符,默認空白字符
示例:
~]# awk -v FS=‘:‘ -v OFS=‘:‘ ‘{print $1 $3}‘ /etc/passwd
RS:input record seperator,輸入記錄分隔符,默認換行符;
註意:即使指定了新的輸入記錄分隔符,原換行符仍然有效
示例:
~]# awk -v RS=‘/‘ ‘{print $0}‘ /etc/passwd
ORS:output record seperator,輸出記錄分隔符
NF:number of field,字段數量
(不加$輸出這個變量的值,加上$輸出最後一個字段)
示例:
~]# awk -v FS=‘:‘ ‘{print NF}‘ /etc/passwd ~]# awk -v FS=‘:‘ ‘{print $NF}‘ /etc/passwd ~]# awk -v FS=‘:‘ ‘{print $(NF-1)}‘ /etc/passwd
NR:number of record,行數;鑒於awk遍歷文件每行的特性,可以將該變量理解為行號
示例:
~]# awk ‘{print NR}‘ /etc/passwd #(如果同時輸出多個文件,那麽行數會累加)
FNR:file number of record,分別統計各個文件的行數,行號
示例:
~]# awk ‘{print FNR}‘ /etc/passwd
FILENAME:輸出當前正在處理的文件的文件名;
示例:
~]# awk ‘{print FILENAME}‘ /etc/passwd
ARGC:argument count,整個命令行中的參數的數量,包括命令本身算一個
示例:
~]# awk ‘{print ARGC}‘ /etc/passwd #(輸出結果為2,awk ‘{print ARGC}‘是1,/etc/passwd是2)
ARGV:數組,argument value,保存了命令行中各個參數的具體內容
示例:
~]# awk ‘{print ARGV[1]}‘ /etc/passwd #(輸出結果為awk)
還可以自己定義變量,定義的方法如下:
-v var=value
註意:變量名區分字符大小寫
示例:
~]# awk -v var1=‘hello‘ -F: ‘{print var1 ,$1}‘ /etc/passwd
除了變量,還可以定義數組:array[index_expression]
index_expression:
1) 可以使用任意的字符串,字符串必須使用雙引號;
2) 如果某數組元素事先不存在,當引用該元素時,awk會自動創建此元素,並且為該元素賦"空字符串"作為其初始值;
註意:如果想要判斷數組中某個元素是否存在,一般會使用"index in array"格式進行;
示例:
~]# awk ‘BEGIN{name["leader"]="zhang";name["mem1"]="li";name["mem2"]="wang";print name["leader"]}‘
在這個命令中,變量是一個很重要也很有意義的東西,配合變量使用的就是如何將其輸出,在上面的例子中,使用到了print,這個選項是將一些內容進行輸出,可以是一些變量,或者是一些自己想要輸出的字符串,比如:
awk ‘{print "aaaaaaaaaa" $1}‘ /etc/fstab
上面這條命令就是取出“/etc/fstab”中的每一行的第一列進行輸出,並且在輸出的時候前面加上一串a,使用這種方法我們可以對輸出內容進行控制。但是這種方法輸出的格式可能並不美觀。所以就用到了另外一種命令,叫做“printf”選項,這個選項可以對輸出的格式進行控制,效果如同C語言中的那個“printf”。
printf選項:
格式化輸出命令:printf "FORMAT" item1,item2,...
要點:
1)必須給出合適的FORMAT(顯示的格式)
2)默認不自動換行,需要顯式給出換行控制符(\n)
3)FORMAT中需要為後面的每一個item指定一個格式符
格式符可以有以下幾種,選擇了一種,就會將後邊對應的“item”語句按照這種格式進行輸出:
%c:顯示字符的ASCII碼
%d,%i:顯示十進制整數
%f:顯示浮點數字
%e,%E:使用科學計數法顯示數字
%g,%G:使用科學計數法顯示浮點數字
%s:顯示字符串
%u:(unsigned)顯示無符號整數
%%:顯示%自身
修飾符:
#[.#]:第一個數字用來控制顯示寬度;第二個數字表示小數點的精度(第二個數可以省略)
例如:%3.1f %5s
-:表示采用左對齊機制;默認是右對齊; %-15s
+:顯示數字的正負符號; %+d
示例:
awk -F: ‘{printf "%20s: %-5s\n",$1,$3}‘ /etc/passwd
在進行輸出的時候還可以進行運算,可以使用一些運算符來到這個目的:
算數操作符:
x+y,x-y,x*y,x/y,x^y,x%y
-x:將正數轉換為負數
+x:將字符串轉換為數值
示例:
awk ‘BEGIN{print 1+2}‘
字符串操作符:
沒有符號的操作符,表示字符串連接之意
賦值操作符:
=,+=,-=,*=,/=,%=,^=
++,--
比較操作符:
>,>=,<,<=,==,!=
示例:
awk -F: ‘$3==1000{print $0}‘ /etc/passwd
模式匹配操作符
~:左側的字符串是否能夠被右側的模式所匹配
!~:左側的字符串是否不能夠被右側的模式所匹配
示例:
awk -F: ‘$NF~/bash/{print $0}‘ /etc/passwd
邏輯操作符:
&&:與
||:或
示例:
awk -F: ‘$3<=1000&&$3>=500{print $0}‘ /etc/passwd #顯示UID在用戶500-1000之間的
條件表達式:
condition(selector)?if-true-expression:if-false-expression
(首先寫判斷條件,然後使用一個“?”進行分隔,後邊緊跟的是如果前邊的判斷條件成立所執行的命令,再然後使用“:”進行分隔,後跟如果判斷條件不符合所執行的命令)
示例:
awk -F: ‘{$3>=1000?usertype="a":usertype="b";printf "%-20s: %-20s\n",usertype,$1}‘ /etc/passwd awk -F: ‘{$3>=1000?usertype="a":usertype="b";print usertype,$1}‘ /etc/passwd
這個命令的強大之處還在於它可以達到grep和sed的效果,比如使用匹配模式就可以實現grep的效果:
在上面的命令格式中可以看到有PATTERN這麽一個選項,它可以是以下五種:
1)empty:空模式,處理文件中的每一行
2)[!]/REGEXP/:僅處理[不]能被PATTERN匹配到的行
示例:
~]# awk ‘[!]/^r/{print}‘ /etc/passwd
3)關系表達式:$3>=1000或者$NF~/bash/
4)行的範圍
/regexp1/,/regexp2/:從被regexp1匹配的這一行開始到被regexp2匹配的這一行結束,有多少這一類匹配結果,就顯示多少次
示例:
~]# awk ‘/^r/,/^a/{print}‘ /etc/passwd #這個命令的功能是匹配所有從以r開頭的行到以a開頭的行
5)BEGIN/END模式:
BEGIN{}:僅在開始處理文件中的第一行文本之前執行一次的語句塊
示例:
~]# awk -F: ‘BEGIN{printf "%20s %5s\n","Username","UserID"}{printf "%20s %5s\n",$1,$3}‘ /etc/passwd
註意:在輸出特定格式的表頭時,常用此語句塊;
END{}:僅在文本處理完成但命令尚未退出時執行一次的語句塊
示例:
~]# awk -F: ‘BEGIN{printf "%20s %5s\n","Username","UserID"}{printf "%20s %5s\n",$1,$3}END{print "========================\n",NR " users"}‘ /etc/passwd
除了能夠進行匹配之外,還可以實現其他語言中的控制語句,比如:
1) if-else:
語法:if (condition) {statement} [ else {statement} ]
使用場景:對awk取得的整行或某個字段做條件判斷;
示例:
~]# awk -F: ‘{if($3>=1000) {print $1} else {print $1,$3}}‘ /etc/passwd
2) while循環:條件為真,進入循環;條件為假,退出循環;
語法:while (condition) statement
使用場景:對一行內的多個字段逐一做類似的處理;對數組中各個元素遍歷及處理;
示例:
~]# awk ‘/^[[:space:]]*linux16/{i=1;while(i<=NF) {printf "%s: %d\n",$i,length($i);i++}}‘ /etc/grub2.cfg
3) do...while循環:
語法:do statement while (condition)
意義:同while循環,但至少執行一次循環體中的語句;
4) for循環:
語法:for (expr1; expr2; expr3) statement
expr1:變量賦初值;
expr2:條件判斷;
expr3:變量值的遞增或遞減調整;
示例:
~]# awk ‘/^[[:space:]]*linux16/{for(i=1;i<=NF;i++) {printf "%s: %d\n",$i,length($i)}}‘ /etc/grub2.cfg
或者配合數組來查看已連接狀態下,同一客戶端的連接數量:
~]# ss -tn | awk ‘/^ESTAB\>/{print $NF}‘ | awk -F: ‘{state[$1]++}END{for(s in state){print state[s],s}}‘
5) break 和 continue
break [n]:跳出循環,後頭跟上哪個數字就跳出幾層循環
continue:跳過本次循環,直接進入下次循環;
6) next語句:
提前結束對本行的處理,而直接進入下一行;
示例:
~]# awk -F: ‘{if($3%2!=0) next;print $1,$3}‘ /etc/passwd
在使用控制語句進行簡單編程的時候還可以使用函數,函數也分為命令內置函數和自建函數。內置函數常見的有以下兩個:
length(string):計算字符串長度
split(string,array[,fieldsep])
示例:
~]# awk ‘{print sdasdas $1 length($1)}‘ /etc/fstab
~]# awk ‘{split($0,user,":");print user[1]}‘ /etc/passwd
awk命令介紹和常見使用方法