gawk 文本處理入門用法詳集

阿新 • • 發佈：2017-05-21

awk 函數數組

awk筆記

gawk - pattern scanning and processing language

報告生成器,可進行格式化輸出,文本處理三劍客之一,是基於sed和grep功能的擴展

一般用法格式:

awk [options] ‘program‘ FILE...
    program: /regular/{print}

語句之間用分號分隔
print,printf

選項:

-F:指明輸入時用到的字段
-v var=value:指明自定變量

awk運作方式:

逐行讀入文本,並將每個字段給予一個變量進行存儲,$1..$NF ,而$0標識一整行
顯示文本的的2,4字段,默認是空格為分隔符,默認輸出以空格為分隔符

tail -3 /etc/fstab  | awk ‘{print $2,$4}‘

1.print item1,item2...

        以逗號作為分隔符
        變量的引用,不允許在""內部
        省略item,則默認print $0

2.變量

1.內鍵變量

FS:input field seperator指明輸入字段分隔符類似-F
OFS:output field seprator 指明輸出字段分隔符
RS:input record seperator輸入時的換行符

                ]# awk -v RS=‘ ‘ ‘{print}‘  /etc/passwd

ORS:output record seperator輸出時的換行符
NF:number of field,每行的字段數量
$NF:最後一個字段
NR:number of record,行數
FNR:各文件分別計數
FILENAME:當前的文件名
ARGC:命令行參數的個數(program 不為參數)

                ]# awk ‘BEGIN{print ARGC}‘ /etc/fstab

ARGV:數組,保存,命令行中所給定的每個字段

2.自定義變量

-v var=value
變量名區分大小寫

                ]# awk -v test=‘hello gawk‘ ‘BEGIN{print test}

在program中直接定義

                ]# awk ‘BEGIN{test="hello gawk";print test}‘

3.printf命令:格式化輸出

        printf "FORMAT1,FORMAT2",item1,item2... ===>FORMAT與item對應位置的格式化
            1.FORMAT是必須要給出
            2.printf不自動換行,顯式給出換行符\n
            2.FORMAT需要分別為後面的每個item指定一個格式化符號

格式符(需用雙引號):

                    %c :顯示字符的ASCII碼
                    %d %i:顯示十進制整數
                    %e %E:科學計數法數值顯示
                    %f:顯示浮點數
                    %g,%G:以科學計數法或浮點數顯示數值
                    %s:顯示字符串
                    %u:無符號整數
                    %%:顯示%自身

格式化輸出示例:

            ]# awk -F: ‘{printf "Username: %s\n",$1}‘ /etc/passwd

修飾符:加在格式符之前,用於控制格式符的顯示方式

#.# 第一個數字控制顯示寬度;第二個#表示小數點後的精度

                       %3.2f
                    - : 顯示為左對齊
                    + : 顯示數值的符號,有正數負數之分

示例:

            ]# awk -v FS=‘:‘ ‘{printf "username: %-25s,UDI: %-25d\n",$1,$3}‘ /etc/passwd

4.操作符

算術操作符

            x+y,x-y,x*y,x^y,x/y,x%y
            -x:正數轉化為負數
            +x:字符串轉化為數值

字符串操作符:沒有符號的操作符,字符串的連接

        賦值操作符:
            =,+=,-=,*=,/=,%=,^=
            ++,--
        比較操作符:
            >,<,>=,<=,!=,==
        模式匹配符:
            ~:是否匹配
            !~:是否不匹配
        邏輯操作符:
            &&
            ||
            !

函數調用:

            function_name(argu1,argu2,...)
        條件表達式:(三目運算)
            selctor?if-true-expression:if-false-expression

示例:查找本機的普通用戶及系統用戶

                # awk -F: -v OFS=":"  ‘{$3>1000?usertype="common user":usertype="system user";printf "%-18s,%s\n",$1,usertype}‘ /etc/passwd

5.PATTERN

1 .empty:空模式,匹配每一行
2 ./regular expression/:文本過濾僅處理被模式匹配到的行

            ]# awk ‘/^UUID/{print $1}‘ /etc/fstab

3 .relatinal expression:關系表達式:結果為真式,才會被處理;非零為真

            ]# awk -F:  ‘$3>=1000{print $1,$3}‘ /etc/passwd

查找其用戶的默認shell為/bin/bash的用戶

            ]# awk -F: ‘$NF=="/bin/bash"{print $1,$NF}‘ /etc/passwd
            ]# awk -F: ‘$NF~/bash$/{print $1,$NF}‘ /etc/passwd

4 .lines ranges:行範圍
startline,endline
註意:不支持直接指定數字,可以容如下方式

            ]# awk -F: ‘(NR>=2&&NR<=5){print $1,$2}‘ /etc/passwd
        /part1/,/part2/
            ]# awk -F: ‘/^h/,/^9/{print $1}‘ /etc/passwd

5 .BEGIN/END模式:處理開始之前處理一次
BEGIN{}:僅在開始處理文件中的文件之前執行一次:
END{}:僅在文本處理完成之後執行一次

        ]# awk -F: ‘BEGIN{print "username uid \n----------"}{print $1,$3‘ /etc/passwd

6 .常用的action:

        1.expressions
        2.control statements:if ,while,等;
        3.compound statements:組合語句;
        4.input statements
        5.output statements

7 .控制語句

        if(condition) {statements} else {statments}
        while(condition) {statements}
        for(expr1;expr2;expr3) {statements}
        {statements}組合語句需要{}

if-else

語法: if(condition) statements [else statements]

     ]# awk -F: ‘{if($3>=1000) {printf "common user:%s\n",$1} else {printf "system user: %s\n ",$1}}‘ /etc/passwd

取得磁盤利用率:

     ]# df -h| awk -F [%] ‘/^\/dev/{print $1}‘|awk ‘{if($NF>=10) print $1}‘

while循環:
語法:while(condition) statements
條件為"真",進入循環;條件為假則退出循環
使用場景:對一行內的多個字段逐一處理,對數組中的字段做逐一處理
函數:length()字符長度
統計每個字段的長度?
```
       ~]# awk ‘/[[:space:]]*linux16/{i=1;while(i<=NF) {print $i,length($i);i++}}‘ /etc/grub2.cfg
```
並統計出大於7的字段?
```
       ~]# awk ‘/[[:space:]]*linux16/{i=1;while(i<=NF) {if(length($i)>=7) {print $i,length($i)};i++}}‘ /etc/grub2.cfg
```

do-while循環

       語法:do statement while(condition)
           意義:先執行循環語句,而後在判斷執行while循環

for循環:

語法:for(expr1;expr2;expr3) statement
for(variable assignment;condition;iteration proccess) {for-body}

       ~]# awk ‘/[[:space:]]*linux16/{for(i=1;i<=NF;i++) {print $i,length($i)}}‘ /etc/grub2.cfg

特殊用法:
能夠遍歷數組中的元素:

               for(var in array) {for-body}

switch語句:

           語法: switch(expression) {case VALUE1 or /REGEXP/:statement;case VALUE2 or /REGEXP/:statement...;default statement}

break和continue
```
       break [n] :跳出n層循環
```

       提前結束對本行的處理而直接進入下一行
           僅顯示偶數的uid用戶?
       ~]# awk -F: ‘{if($3%2!=0) next; print $1,$3}‘ /etc/passwd

array
關聯數組:array[index-expression]

 index-expression:
     1.可使用任意字符串;索引要使用雙引號"";array["mon"]=Monday
     2.如果某元素事先不存在,在引用時awk會自動將此元素創建並將其賦值為空串

若要判斷數組中是否存在某元素,要使用"index in array"格式進行
若要遍歷數組中的每個元素,要使用for循環:

for(var in array) {for-body}

    ~]# awk ‘BEGIN{weekdays["mon"]="monday";weekdays["tue"]="tuesday";for(i in weekdays) {print weekdays[i]}}‘
        註意:var會遍歷array的每個索引;

查看netstat -nat中tcp狀態出現的次數?

        ~]# netstat -tan |awk ‘/^tcp\>/{state[$NF]++}END{for(i in state) {print i,state[i]}}‘

查看ss -nat中tcp狀態出現的次數?

        ~]# ss -tan |awk ‘{state[$1]++}END{for(i in state) {print i,state[i]}}‘

查看ip地址的訪問量?

        ~]# awk ‘{ip[$1]++}END{for(i in ip) {print i,ip[i]}}‘ /var/log/httpd/access_log

統計/etc/fstab中文件系統的個數?

        ~]# awk ‘/^UUID/{fs[$3]++}END{for(i in fs) {print i,fs[i]}}‘ /etc/fstab

統計指定文件中每個單詞出現的次數?

        ~]# awk ‘{for(i=1;i<=NF;i++) {count[$i]++}}END{for(i in count) {print i,count[i]}}‘ /etc/fstab

9.內置函數:

        數值處理:
            rand():返回指定字符串的長度;
        字符處理:
            length([s]):返回指定字符串的長度;
            sub(r,s,[t]):以r表示模式查找t所表示的字符中匹配的內容,並將其第一次出現替換為s所表示的內容;
            gsub(r,s,[t]):以r表示模式查找t所表示的字符中匹配的內容,並將全局出現替換為s所表示的內容;
            splits(s,a[,r]):以r為分隔符切割字符s,並將切割後的結果保存至a所代表的的數組中

統計ip地址出現的次數?

                ~]# netstat -tan|awk ‘/^tcp\>/{split($5,ip,":");count[ip[1]]++}END{for(i in count) {print i,count[i]}}

本文出自 “老城小敘” 博客，請務必保留此出處http://cityx.blog.51cto.com/9857477/1927819

gawk 文本處理入門用法詳集

awk 函數數組 awk筆記gawk - pattern scanning and processing language報告生成器,可進行格式化輸出,文本處理三劍客之一,是基於sed和grep功能的擴展一般用法格式:awk [options] ‘program‘ FILE... pro

linux文本處理三劍客之grep命令詳解

gawk 軟件 upper edit 進制使用第一個空格 earch Linux文本處理三劍客之grep grep：文本過濾(模式：pattern)工具 grep, egrep, fgrep（不支持正則表達式搜索） sed：stream editor，

Linux入門-7 Linux管道、重定向以及文本處理

cas tde blog linux中 err linuxcast 重要 nal new Linux管道、重定向以及文本處理 1 Linux多命令協作：管道及重定向管道和重定向 2 Linux命令行文本處理工具文件瀏覽基於關鍵字搜索-grep 基於列處理文本-

Java成長第四集--文本處理IO流

ada 之間 -s 直接 nts 來看磁盤單位處理 Java IO流在實際業務中使用的頻率還是蠻高的，一些業務場景比如，文件的上傳和導出，文件的讀取等基本都是通過操作IO流來實現的，所以IO流是我們現在學習過程中必須要掌握的技能之一，熟練的使用IO流，理解它的操作過程

Linux文本處理三劍客——awk詳細用法

依次格式使用換行符引用參數固定 value 屏幕 awk是行處理器: 相比較屏幕處理的優點，在處理龐大文件時不會出現內存溢出或是處理緩慢的問題，通常用來格式化文本信息。awk處理過程: 依次對每一行進行處理，然後輸出。 awk命令形式：awk [-F|-f|-

Spark學習筆記——文本處理技術

使用 ken ins main 最小 leg tran sparse rain 1.建立TF-IDF模型 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.lin

運維學習之sed文本處理工具

command linux stream 編輯器三劍客 linux工具之sed: sed：Stream EDitor，流編輯器，以行為單位對一個或多個文件進行編輯處理；每一次sed都會處理給定文件中的一行內容。在sed處理文本時，將正在處理的當前行存儲到臨時的緩沖區中，稱為“模式空間

Linux文本處理三劍客

img 目標文本過濾 sta 生成器指定 grub2 功能空白 Grep: 文本過濾工具，（grep,egrep,fgrep) Sed：文本編輯工具， Awk: 文本報告生成器 grep : 作用文本搜索工具，根據用戶指定的‘模式對目標文件逐步進行匹配檢查，

文本處理命令（六）

cut wc tr paste 文本處理命令：sort，uniq，join，cut，paste，split，tr，wc6.1.sort功能：文本文件排序語法：sort [OPTION]... [FILE]... sort [OPTION]... --files0-from=F

Linux文本處理"三劍客"--grep

grep、正則表達式稍微接觸過linux都會知道有三個非常強大文本處理工具，那就是grep、sed和awk，想必都有聽說過吧。Linux文本處理三劍客： grep, egrep, fgrep：文本過濾工具（模式：pattern）； grep：基本正則表達式，支持-E，-F egrep

Linux Shell 文本處理工具集錦

12c 程序員常用忽略忽略大小寫第一個 rgs del num 本文將介紹Linux下使用Shell處理文本時最常用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和參數都是最常用和最為實用的

Linux文本處理工具

linux、grep、sed、awk1、grep grep（global search regular expression(RE) and print out the line，全面搜索正則表達式並把行打印出來）是一種強大的文本搜索工具，它能使用正則表達式搜索文本，並把匹配的行打印出來。語法

Linux 文本處理命令

linux 中的文本處理命令1. cat : concatnateoptions : -n : number 顯示行號 -E : end 顯示每行結尾的標識符 (Linux 中每行結尾的標識符為 $ ,而Windows 中為 $+ 回車 ) -v : visible 可見的

【Linux相識相知】文本處理工具之grepegrepfgrep及正則表達式

搜索字符串變量 git cnblogs game home 表示 leg roo 常說Linux上有文本處理的三劍客，grep、sed和awk，本文就grep做出詳細的描述，並引出正則表達式。 grep NAME：打印模式匹配的行 SYNOPISIS：

謝煙客---------Linux之文本處理三劍客之grep

linux基礎Linux之文本處理三劍客介紹 awk 名稱得自於它的創始人阿爾佛雷德·艾侯、彼得·溫伯格和布萊恩·柯林漢姓氏的首個字母,它具備了一個完整的語言所應具有的幾乎所有精美特性，AWK是一個解釋器，三位創建者已將它正式定義為“樣式掃描和處理語言”。它允許您創建簡短的程序，這些程序讀取輸入文件、為

謝煙客---------Linux之文本處理三劍客之egre、fgrep

linux基礎egrep是grep的另一種模式，用-E選項(啟用或關閉命令的某個或某些功能)，啟用擴展正則表達式引擎功能，使用擴展正則表達式的字符和純文本字符組合的PATTERN，對文本流逐行匹配檢查，將匹配到的字符串所在的行顯示至標準輸出fgrep，grep -F選項，關閉正則表達式引擎功能，以純文本字符組

基本文本處理工具

能夠 welcome 密碼 ctrl+d 忽略 less 技術想去上一個文本處理工具用於處理文本的工具有很多，今天我們就來一個個說一說文本查看工具 cat tac rev 命令：cat 格式：cat [OPTION]... [FILE]... 選項： -

實驗樓簡單的文本處理

大小寫去除重復 sudo 指定兩個文件 strong 符號信息文本處理命令 tr 命令 tr 命令可以用來刪除一段文本信息中的某些文字。或者將其進行轉換選項說明 -d 刪除和set1匹配的字符，註意不是全詞匹配也不是按字符順序匹配 -s 去除set

mac 文本處理命令分享

gray 分割行合並文本處理命令 red span pub eee publish mac 文本處理命令分享 pre.src {background-color: #292b2e; color: #b2b2b2;} pre.src {b

2017-10-9linux文本處理

linux文本處理文本處理：cat、tac、more、less、head、tail, cut, sort, uniq, grep 正則表達式管道和重定向: > < >> <<用戶，組，權限查看文本:cat, tac, more, less, head, tailcat(co

gawk 文本處理入門用法詳集

gawk - pattern scanning and processing language

報告生成器,可進行格式化輸出,文本處理三劍客之一,是基於sed和grep功能的擴展

awk運作方式:

格式符(需用雙引號):

修飾符:加在格式符之前,用於控制格式符的顯示方式

相關推薦