linux

本篇部落格主要介紹linux常用命令中的對文字和資料進行處理的命令awk的用法。

awk命令

awk是一種程式語言，用於在linux/unix下對文字和資料進行處理。資料可以來自標準輸入(stdin)、一個或多個檔案，或其它命令的輸出。它支援使用者自定義函式和動態正則表示式等先進功能，是linux/unix下的一個強大程式設計工具。它在命令列中使用，但更多是作為指令碼來使用。awk有很多內建的功能，比如陣列、函式等，這是它和C語言的相同之處，靈活性是awk最大的優勢。

awk命令格式和選項

語法格式

awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)

常用命令選項

-F fs fs 指定輸入分隔符，fs可以時字串或正則表示式
-v var=value 賦值一個使用者定義變數，將外部變數傳遞給awk
-f scriptfile 從指令碼檔案中讀取awk命令

awk指令碼

awk指令碼是由模式和操作組成的。

模式與操作

模式

模式可以是以下任意一種：

正則表示式：使用萬用字元的擴充套件集
關係表示式：使用運算子進行操作，可以是字串或數字的比較測試
模式匹配表示式：用運算子～（匹配）和~!不匹配
BEGIN 語句塊， pattern語句塊， END語句塊

操作

操作由一個或多個命令、函式、表示式組成，之間由換行符或分號隔開，並位於大刮號內，主要部分是：變數或陣列賦值、輸出命令、內建函式、控制流語句。

awk指令碼基本格式

awk 'BEGIN{ commands } pattern{ commands } END{ commands }' file

一個awk指令碼通常由BEGIN，通用語句塊，END語句塊組成，三部分都是可選的。指令碼通常是被單引號或雙引號包住。

awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename
awk "BEGIN{ i=0 } { i++ } END{ print i }" filename

awk執行過程分析

第一步：執行BEGIN { commands } pattern 語句塊中的語句
BEGIN語句塊：在awk開始從輸入輸出流中讀取行之前執行，在BEGIN語句塊中執行如變數初始化，列印輸出表頭等操作。
第二步：從檔案或標準輸入中讀取一行，然後執行pattern{ commands }語句塊。它逐行掃描檔案，從第一行到最後一行重複這個過程，直到全部檔案都被讀取完畢。
pattern語句塊：pattern語句塊中的通用命令是最重要的部分，它也是可選的。如果沒有提供pattern語句塊，則預設執行{ print }，即列印每一個讀取到的行。{ }類似一個迴圈體，會對檔案中的每一行進行迭代，通常將變數初始化語句放在BEGIN語句塊中，將列印結果等語句放在END語句塊中。
第三步：當讀至輸入流末尾時，執行END { command }語句塊
END語句塊:在awk從輸入流中讀取完所有的行之後即被執行，比如列印所有行的分析結果這類資訊彙總都是在END語句塊中完成，它也是一個可選語句塊。

AWK內建變數

$n : 當前記錄的第n個欄位，比如n為1表示第一個欄位，n為2表示第二個欄位。
$0 : 這個變數包含執行過程中當前行的文字內容。
ARGC : 命令列引數的數目。
ARGIND : 命令列中當前檔案的位置（從0開始算）。
ARGV : 包含命令列引數的陣列。
CONVFMT : 數字轉換格式（預設值為%.6g）。
ENVIRON : 環境變數關聯陣列。
ERRNO : 最後一個系統錯誤的描述。
FIELDWIDTHS : 欄位寬度列表（用空格鍵分隔）。
FILENAME : 當前輸入檔案的名。
NR : 表示記錄數，在執行過程中對應於當前的行號
FNR : 同NR :，但相對於當前檔案。
FS : 欄位分隔符（預設是任何空格）。
IGNORECASE : 如果為真，則進行忽略大小寫的匹配。
NF : 表示欄位數，在執行過程中對應於當前的欄位數。 print $NF答應一行中最後一個欄位
OFMT : 數字的輸出格式（預設值是%.6g）。
OFS : 輸出欄位分隔符（預設值是一個空格）。
ORS : 輸出記錄分隔符（預設值是一個換行符）。
RS : 記錄分隔符（預設是一個換行符）。
RSTART : 由match函式所匹配的字串的第一個位置。
RLENGTH : 由match函式所匹配的字串的長度。
SUBSEP : 陣列下標分隔符（預設值是34）。

將外部變數值傳遞給awk

藉助 -v 選項，可以將來自外部值（非stdin）傳遞給awk
VAR=10000
echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'
定義內部變數接收外部變數
var1="aaa"
var2="bbb"
echo | awk '{ print v1,v2 }' v1=$var1 v2=$var2
當輸入來自檔案時
awk '{ print v1,v2 }' v1=$var1 v2=$var2 filename

awk運算

算術運算：（+，-，*，/，&，！，……，++，--）
所有用作算術運算子進行操作時，運算元自動轉為數值，所有非數值都變為0
賦值運算：（=， +=， -=，*=，/=，%=，……=，**=）
邏輯運算子: (||, &&)
關係運算符：（<, <=, >,>=,!=, ==）
正則運算子：（～，～!）(匹配正則表示式，與不匹配正則表示式)
awk 'BEGIN{a="100testa";if(a ~ /^100*/){print "ok";}}'
ok

awk高階輸入輸出

讀取下一條記錄：`next 語句`

awk中next語句使用：在迴圈逐行匹配，如果遇到next，就會跳過當前行，直接忽略下面語句。而進行下一行匹配。net語句一般用於多行合併：

awk 'NR%2==1{next}{print NR,$0;}' text.txt
說明：當記錄行號除以2餘1，就跳過當前行。下面的print NR,$0也不會執行。下一行開始，程式有開始判斷NR%2值。這個時候記錄行號是：2 ，就會執行下面語句塊：print NR,$0

讀取一行記錄：`getline 語句`

awk getline用法：輸出重定向需用到getline函式。getline從標準輸入、管道或者當前正在處理的檔案之外的其他輸入檔案獲得輸入。它負責從輸入獲得下一行的內容，並給NF,NR和FNR等內建變數賦值。如果得到一條記錄，getline函式返回1，如果到達檔案的末尾就返回0，如果出現錯誤，例如開啟檔案失敗，就返回-1。
語法格式：getline var 變數var包含了特定行的內容
用法說明：

當其左右無重定向符時|，<時：getline作用於當前檔案，讀入當前檔案的第一行給其後跟的變數var或$0（無變數），應該注意到，由於awk在處理getline之前已經讀入了一行，所以getline得到的返回結果是隔行的。
當其左右有重定向符時|，<時：getline則作用於定向輸入檔案，由於該檔案是剛開啟，並沒有被awk讀入一行，只是getline讀入，那麼getline返回的是該檔案的第一行，而不是隔行。

檔案操作

開啟檔案 open("filename")
關閉檔案 close("filename")
輸出到檔案重定向到檔案，如echo | awk '{printf("hello word!n") > "datafile"}'

迴圈結構

for迴圈

for(變數 in 陣列)
{語句}
for(變數;條件;表示式)
{語句}

while迴圈

while(表示式)
{語句}

do...while迴圈

do
{語句} while(條件)

其他相關語句

break：退出程式迴圈
continue: 進入下一次迴圈
next：讀取下一個輸入行
exit：退出主輸入迴圈，進入END，若沒有END或END中有exit語句，則退出指令碼。

陣列

在awk中陣列叫做關聯陣列(associative arrays)。awk 中的陣列不必提前宣告，也不必宣告大小。陣列元素用0或空字串來初始化，這根據上下文而定。

awk 'BEGIN{
Array[1]="sun"
Array[2]="kai"
Array["first"]="www"
Array["last"]="name"
Array["birth"]="1987"
info = "it is a test";
lens = split(info,tA," ");
for(item in tA)
{print tA[item];}
for(i=1;i<=lens;i++)
{print tA[i];}
print length(tA[lens]);
} {
print "item in array";
for(item in Array) {print Array[item]};
print "print in i++";
for(i=1;i<=length(Array);i++) {print Array[i]};
}'

獲取陣列長度

awk 'BEGIN{
info="it is a test";
lens=split(info,tA," "); #使用split函式獲取陣列長度
print length(tA),lens; #使用length函式獲取陣列長度（版本有要求）
}'

**說明：** **版本夠高**的awk當中，支援直接得到陣列長度的方法length()，如果awk的版本過低，則不支援。另外，如果傳給length的變數是一個字串，那麼length返回的則字串的長度。

輸出陣列內容
- 有序輸出 for...in
  因為陣列時關聯陣列，預設是無序的
- 無序輸出 for(i=1;i<l=ens;i++)
  陣列下標從1開始
判斷鍵值是否存在

#錯誤的判斷方法，awk陣列是關聯陣列，只要通過陣列引用它的KEY，就會自動建立。
awk 'BEGIN{
tB["a"]="a1";
tB["b"]="b1";
if(tB["c"]!="1"){ #tB["c"]沒有定義，但是迴圈的時候會輸出
print "no found";
};
for(k in tB){
print k,tB[k];
}}'
#正確的判定方法：使用 if ( key in array) 判斷陣列中是否包含鍵值
awk 'BEGIN{
tB["a"]="a1";
tB["b"]="b1";
if( "c" in tB){
print "ok";
};
for(k in tB){
print k,tB[k];
}}'

刪除鍵值
delete array[key]可以刪除，對應陣列key的，序列值。

awk 'BEGIN{
tB["a"]="a1";
tB["b"]="b1";
delete tB["a"];
for(k in tB){
print k,tB[k];
}}'

二維，多維陣列
awk的多維陣列在本質上是一維陣列，更確切一點，awk在儲存上並不支援多維陣列。awk提供了邏輯上模擬二維陣列的訪問方式。例如，array[2,4]=1這樣的訪問是允許的。awk使用一個特殊的字串SUBSEP作為分割欄位。類似一維陣列的成員測試，多維陣列可以使用if ( (i,j) in array)這樣的語法，但是下標必須放置在圓括號中。類似一維陣列的迴圈訪問，多維陣列使用for ( item in array )這樣的語法遍歷陣列。與一維陣列不同的是，多維陣列必須使用split()函式來訪問單獨的下標分量。

awk 'BEGIN{
for(i=1;i<=9;i++){
for(j=1;j<=9;j++){
tarr[i,j]=i*j;
print i,"*",j,"=",tarr[i,j];
}
}
}'
awk 'BEGIN{
for(i=1;i<=9;i++){
for(j=1;j<=9;j++){
tarr[i,j]=i*j; } }
for(m in tarr){
split(m,tarr2,SUBSEP);
print tarr2[1],"*",tarr2[2],"=",tarr[m]; } }'

內建函式

算術函式

格式	描述
atan2( y, x )	返回 y/x 的反正切。
cos( x )	返回 x 的餘弦；x 是弧度。
sin( x )	返回 x 的正弦；x 是弧度。
exp( x )	返回 x 冪函式。
log( x )	返回 x 的自然對數。
sqrt( x )	返回 x 平方根。
int( x )	返回 x 的截斷至整數的值。
rand( )	返回任意數字 n，其中 0 <= n < 1。
srand( [expr] )	將 rand 函式的種子值設定為 Expr 引數的值，或如果省略 Expr 引數則使用某天的時間。返回先前的種子值。

awk 'BEGIN{
OFMT="%.3f"; #OFMT 設定輸出資料格式是保留3位小數。
fs=sin(1);
fe=exp(10);
fl=log(10);
fi=int(3.1415);
print fs,fe,fl,fi;
}'
輸出結果為：0.841 22026.466 2.303 3
awk 'BEGIN{
srand();
fr=int(100*rand());
print fr;
}'
輸出：78

字串函式

格式	描述
gsub( Ere, Repl, [ In ] )	除了正則表示式所有具體值被替代這點，它和 sub 函式完全一樣地執行。
sub( Ere, Repl, [ In ] )	用 Repl 引數指定的字串替換 In 引數指定的字串中的由 Ere 引數指定的擴充套件正則表示式的第一個具體值。sub 函式返回替換的數量。出現在 Repl 引數指定的字串中的 &（和符號）由 In 引數指定的與 Ere 引數的指定的擴充套件正則表示式匹配的字串替換。如果未指定 In 引數，預設值是整個記錄（$0 記錄變數）。
index( String1, String2 )	在由 String1 引數指定的字串（其中有出現 String2 指定的引數）中，返回位置，從 1 開始編號。如果 String2 引數不在 String1 引數中出現，則返回 0（零）。
length [(String)]	返回 String 引數指定的字串的長度（字元形式）。如果未給出 String 引數，則返回整個記錄的長度（$0 記錄變數）。
blength [(String)]	返回 String 引數指定的字串的長度（以位元組為單位）。如果未給出 String 引數，則返回整個記錄的長度（$0 記錄變數）。
substr( String, M, [ N ] )	返回具有 N 引數指定的字元數量子串。子串從 String 引數指定的字串取得，其字元以 M 引數指定的位置開始。M 引數指定為將 String 引數中的第一個字元作為編號 1。如果未指定 N 引數，則子串的長度將是 M 引數指定的位置到 String 引數的末尾的長度。
match( String, Ere )	在 String 引數指定的字串（Ere 引數指定的擴充套件正則表示式出現在其中）中返回位置（字元形式），從 1 開始編號，或如果 Ere 引數不出現，則返回 0（零）。RSTART 特殊變數設定為返回值。RLENGTH 特殊變數設定為匹配的字串的長度，或如果未找到任何匹配，則設定為 -1（負一）。
tolower( String )	返回 String 引數指定的字串，字串中每個大寫字元將更改為小寫。大寫和小寫的對映由當前語言環境的 LC_CTYPE 範疇定義。
toupper( String )	返回 String 引數指定的字串，字串中每個小寫字元將更改為大寫。大寫和小寫的對映由當前語言環境的 LC_CTYPE 範疇定義。
sprintf(Format, Expr, Expr, . . . )	根據 Format 引數指定的 printf 子例程格式字串來格式化 Expr 引數指定的表示式並返回最後生成的字串。

說明： Ere都可以是正則表示式。

時間函式

格式	描述
mktime( YYYY MM dd HH MM ss[ DST])	生成時間格式
strftime([format [, timestamp]])	格式化時間輸出，將時間戳轉為時間字串具體格式，見下表.
systime()	得到時間戳,返回從1970年1月1日開始到當前時間(不計閏年)的整秒數

strftime日期和時間格式說明符 :

格式	描述
%a	星期幾的縮寫(Sun)
%A	星期幾的完整寫法(Sunday)
%b	月名的縮寫(Oct)
%B	月名的完整寫法(October)
%c	本地日期和時間
%d	十進位制日期
%D	日期 08/20/99
%e	日期，如果只有一位會補上一個空格
%H	用十進位制表示24小時格式的小時
%I	用十進位制表示12小時格式的小時
%j	從1月1日起一年中的第幾天
%m	十進位制表示的月份
%M	十進位制表示的分鐘
%p	12小時表示法(AM/PM)
%S	十進位制表示的秒
%U	十進位制表示的一年中的第幾個星期(星期天作為一個星期的開始)
%w	十進位制表示的星期幾(星期天是0)
%W	十進位制表示的一年中的第幾個星期(星期一作為一個星期的開始)
%x	重新設定本地日期(08/20/99)
%X	重新設定本地時間(12：00：00)
%y	兩位數字表示的年(99)
%Y	當前月份
%Z	時區(PDT)
%%	百分相關推薦 shell程式設計之awk命令詳解 linux本篇部落格主要介紹linux常用命令中的對文字和資料進行處理的命令awk的用法。awk命令awk是一種程式語言，用於在linux/unix下對文字和資料進行處理。資料可以來自標準輸入(stdin)、一個或多個檔案，或其它命令的輸出。它支援使用者自定義函式和動態正則表示式等先進功能，是linux/un linux 之awk命令詳解數學函數 mat loop 多次 finished 數組結構 save pre 新的 awk是一種程序語言，對文檔資料的處理具有很強的功能。awk名稱是由它三個最初設計者的姓氏的第一個字母而命名的： Alfred V. Aho、Peter J. We i n b e rg Linux三劍客之awk命令詳解 awk簡單入門 awk是一個強大的文字分析工具，相對於grep的查詢，sed的編輯，awk在其對資料分析並生成報告時，顯得尤為強大。簡單來說awk就是把檔案逐行的讀入，以空格為預設分隔符將每行切片，切開的部分再進行各種分析處理。使用方法： awk '{pattern + a Linux之awk命令詳解 AWK介紹 0.awk有3個不同版本: awk、nawk和gawk，未作特別說明，一般指gawk。 1.awk語言的最基本功能是在檔案或字串中基於指定規則來分解抽取資訊，也可以基於指定的規則來輸出資料。完整的awk指令碼通常用來格式化文字檔案中的資訊。 2.三種方式呼叫awk 1) awk [opion] Linux Shell指令碼程式設計 --awk命令詳解簡單使用： awk ：對於檔案中一行行的獨處來執行操作。 awk -F ：'{print $1,$4}' :使用‘：’來分割這一行，把這一行的第一第四個域打印出來。 Linux Shell指令碼程式設計－－awk命令詳解簡單使用： awk ：對於檔案中一行行的獨處來執行操作。 awk -F ：'{print $1,$4}' :使用‘：’來分割這一行，把這一行的第一第四個域打印出來。詳細介紹： AWK命令介紹 awk語言的最基本功能是在檔案或字串中基於指定規則瀏覽和抽取資訊，awk抽取資訊後，才能進行其他【轉】linux awk命令詳解 column 環境變量最後一行工作流程初始文本文件 for循環其中 cti 簡介 awk是一個強大的文本分析工具，相對於grep的查找，sed的編輯，awk在其對數據分析並生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切 awk 命令詳解 spa 命令詳解 padding .cn 使用入門 20px ora rda gen awk 用法（使用入門）[轉]linux awk命令詳解 awk命令 awk 命令詳解 [轉載]linux awk命令詳解基本特定收集 comm rip 解釋文本工作流程復制代碼簡介 awk是一個強大的文本分析工具，相對於grep的查找，sed的編輯，awk在其對數據分析並生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切片，切開的部分再進行各 linux awk命令詳解列數才會遍歷數組文本文件信息 shell腳本 == game 入門簡介 awk是一個強大的文本分析工具，相對於grep的查找，sed的編輯，awk在其對數據分析並生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切片，切開的部分 linux文本處理三劍客之grep命令詳解 gawk 軟件 upper edit 進制使用第一個空格 earch Linux文本處理三劍客之grep grep：文本過濾(模式：pattern)工具 grep, egrep, fgrep（不支持正則表達式搜索） sed：stream editor， 1.12-linux三劍客之awk用法詳解 -a proc == 行號 oss url oldboyedu rap oai 1.12linux三劍客之awk用法詳解內容:1. awk執行過程2. awk命令格式3. awk用法4. awk數組第1章 awk執行過程一直讀取到文件的最後一行第2章 awk ‘找誰{幹啥 Linux之find命令詳解 Linux find find：實時查找工具，通過遍歷指定起始路徑下文件系統層級結構完成文件查找：工作特性：查找速度略慢：精確查找：實時查找：用法： find [OPTIONS][查找起始路徑][查找條件 [轉]linux awk命令詳解分享相同 list 等於 connected lis gin 顯示大於等於 awk是行處理器: 相比較屏幕處理的優點，在處理龐大文件時不會出現內存溢出或是處理緩慢的問題，通常用來格式化文本信息 awk處理過程: 依次對每一行進行處理，然後輸出 awk命令形式: Linux三劍客值awk命令詳解數據處理程序 package mysq regular 邏輯與 body 相同導致一、awk介紹 AWK是一種優良的文本處理工具。它不僅是 Linux 中也是任何環境中現有的功能最強大的數據處理引擎之一。這種編程及數據操作語言（其名稱得自於它的創始人 Alfred A 玩轉LINUX之sed命令詳解用戶常見 mail 括號 {} int 緩沖復雜 commands Linux sed命令是利用script來處理文本文件。 sed可依照script的指令，來處理、編輯文本文件。 Sed主要用來自動編輯一個或多個文件；簡化對文件的反復操作；編寫轉換程序等。執行時，s awk命令詳解（二）第一篇的連結：Linux awk命令總結（一） 1. 處理陣列為了在單個變數中儲存多個值，許多程式語言都提供了陣列，在awk中使用關聯陣列提供陣列的功能。關聯陣列類似於散列表和字典，索引值可以是任意的文字字串，對索引的唯一要求是每個索引字串都能夠唯一的對應賦值給它的資料元素。（ NIO程式設計之ServerSocketChannel用法詳解之前一直看不懂NIO中的ServerSocketChannel和SocketChannel的區別，看了這篇博文，感覺通俗易懂，於是決定分享一下。。。。在用nio通訊的過程我用以下情景給你模擬：學校(ServerSocketChannel) 2。學校教務處 Linux之expr命令詳解 expr命令：　　　　expr命令是一個手工命令列計數器，用於在UNIX/LINUX下求表示式變數的值，一般用於整數值，也可用於字串。　　–格式為：　　　　expr Expression(命令讀入Expression 引數,計算它的值,然後將結果寫入到標準輸出) 　　–引數應用規則：　　　　用空格隔開 Linux基礎知識之dd命令詳解本文先簡要介紹dd的引數，然後通過幾個例項介紹dd的應用，這些素材整理來源於網路。 dd 是 Linux/UNIX 下的一個非常有用的命令，其作用是用指定大小的塊拷貝一個檔案，並在拷貝的同時進行指定的轉換。 1. 命令簡介 dd 的主要引數選項：指定數字的地方若以下列字元結尾乘以相應的數字: b= 搜尋基礎教學 Mysql入門 Sql入門 Android入門 Docker入門 Go語言入門 Ruby程式入門 Python入門 Python進階 Django入門 Python爬蟲入門最近訪問首頁前端設計程式設計免費資源實用技巧資料庫資訊字典 Copyright © 2002-2020 程式人生 796T.COM All rights reserved.

shell程式設計之awk命令詳解