Linux文本處理"三劍客"--grep

阿新 • • 發佈：2017-06-05

grep、正則表達式

稍微接觸過linux都會知道有三個非常強大文本處理工具，那就是grep、sed和awk，想必都有聽說過吧。

Linux文本處理三劍客：

grep, egrep, fgrep：文本過濾工具（模式：pattern）；

grep：基本正則表達式，支持-E，-F

egrep：擴展正則表達式，支持-G，-F

fgrep：不支持正則表達式，

sed：stream editor, 流編輯器；文本編輯工具；

awk：Linux上的實現為gawk，文本報告生成器（格式化文本）；

以上三款工具都支持正則表達式

正則表達式：Regual Expression, REGEXP

由一類特殊字符及文本字符所編寫的模式，其中有些字符不表示其字面意義，而是用於表示控制或通配的功能；

分兩類：

基本正則表達式：BRE

擴展正則表達式：ERE

grep： Global search REgular expression and Print out the line.

作用：文本搜索工具，根據用戶指定的“模式（過濾條件）”對目標文本逐行進行匹配檢查；打印匹配到的行

模式：由正則表達式的元字符及文本字符所編寫出的過濾條件

格式：

grep [OPTIONS] PATTERN [FILE...]

grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

選項（OPTIONS）：

--color=auto：對匹配到的文本著色後高亮顯示；（在centos7中管理員alias中已定義，centos6中沒有定義）

[[email protected]_1 ~]# alias

alias grep=‘grep --color=auto‘

-i：ignorecase，忽略字符的大小寫

[[email protected] ~]# grep -i "uuid" /etc/fstab

UUID=48604746-41c1-41df-aaf1-f3588bfd3edc / xfs defaults 0 0

-o：僅顯示匹配到的字符串本身

[[email protected] ~]# grep -o "UUID" /etc/fstab

UUID

-v, --invert-match：顯示不能被模式匹配到的行；取反的意思

[[email protected]_1 ~]# grep -v "UUID" /etc/fstab

-n：顯示模式匹配到內容的行號

-E：支持使用擴展的正則表達式元字符

-q, --quiet, --silent：靜默模式，即不輸出任何信息

-A #：after, 後#行

[[email protected]_1 ~]# grep -A 1 "root" /etc/passwd

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

-B #：before，前#行

[[email protected]_1 ~]# grep -B 1 "^bin" /etc/passwd

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

-C #：context，前後各#行

[[email protected]_1 ~]# grep -C 1 "^bin" /etc/passwd

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin

基本正則表達式元字符：

字符匹配：

. ：匹配任意單個字符；

[[email protected] sh]# grep "[[:punct:]]." issue

[]：匹配指定範圍內的任意單個字符；

[^]：匹配指定範圍外的任意單個字符；

[[:upper:]]：所有大寫字母

[[:lower:]]：所有小寫字母

[[:alpha:]]：所有字母

[[:digit:]]：所有數字

[[:alnum:]]：所有的字母和數字

[[:punct:]]：匹配標點符號

[[:space:]]：匹配空白字符

註：正則表達式中的範圍匹配是區分大小寫

匹配次數：

用在要指定其出現的次數的字符的後面，用於限制其前面字符出現的次數；默認工作於貪婪模式

*：匹配其前面的字符任意次；0,1,多次；

例如：grep "x*y"，會匹配下面多種情況

abxy、aby、xxxxxy、yab

.*：匹配任意長度的任意字符

\?：匹配其前面的字符0次或1次；即其前面的字符是可有可無的；

\+：匹配其前面的字符1次或多次；即其面的字符要出現至少1次；

\{m\}：匹配其前面的字符m次；

\{m,n\}：匹配其前面的字符至少m次，至多n次；

\{0,n\}：至多n次

\{m,\}：至少m次

位置錨定：

^：行首錨定；用於模式的最左側；

$：行尾錨定；用於模式的最右側；

^PATTERN$：用於PATTERN（root）來匹配整行；

^$：空白行；

^[[:space:]]*$：空行或包含空白字符的行；

\< 或 \b：詞首錨定，用於單詞模式的左側；

\> 或 \b：詞尾錨定，用於單詞模式的右側；

\<PATTERN\>：匹配完整單詞；

單詞：非特殊字符組成的連續字符（字符串）都稱為單詞；

分組及引用：

：將一個或多個字符捆綁在一起，當作一個整體進行處理；

例：$xy$*ab

Note：分組括號中的模式匹配到的內容會被正則表達式引擎自動記錄於內部的變量中，這些變量為：

\1：模式從左側起，第一個左括號以及與之匹配的右括號之間的模式所匹配到的字符

\2：模式從左側起，第二個左括號以及與之匹配的右括號之間的模式所匹配到的字符

\3：模式從左側起，第三個左括號以及與之匹配的右括號之間的模式所匹配到的字符

...

示例：

He loves his lover.

He likes his lover.

She likes her liker.

She loves her liker.

[[email protected]_1 ~]# grep "$l..e$.*\1" lovers.txt

後向引用：引用前面的分組括號中的模式所匹配到的字符；

上述講的是grep命令使用及基本正則表達式使用方法，grep是支持正則表達式，可以在工作中結合使用。先來幾道練習題：

1、顯示/etc/passwd文件中不以/bin/bash結尾的行；

2、找出/etc/passwd文件中的兩位數或三位數；

3、找出/etc/rc.d/rc.sysinit或/etc/grub2.cfg文件中，以至少一個空白字符開頭，且後面非空白字符的行；

4、找出"netstat -tan"命令的結果中以‘LISTEN‘後跟0、1或多個空白字符結尾的行；

解答：

1、[[email protected]_1 ~]# grep -v "/bin/bash$" /etc/passwd

2、[[email protected]_1 ~]# grep "\<[0-9]\{2,3\}\>" /etc/passwd

3、[[email protected]_1 ~]# grep "^[[:space:]]\+[^[:space:]]" /etc/grub2.cfg

4、[[email protected]_1 ~]# netstat -tan | grep "LISTEN[[:space:]]*$"

===========================================================================================

egrep：

支持擴展的正則表達式實現類似於grep文本過濾功能；grep -E

格式：

egrep [OPTIONS] PATTERN [FILE...]

選項：

-i, -o, -v, -q, -A, -B, -C

-G：支持基本正則表達式

擴展正則表達式的元字符：

擴展正則比基本正則多了一個“或”匹配模式，而擴展正則表達式寫法比基本正則表達式簡單易看

字符匹配：

.：任意單個字符

[]：指定範圍內的任意單個字符

[^]：指定範圍外的任意單個字符

次數匹配：

*：任意次，0,1或多次；

?：0次或1次，其前的字符是可有可無的；

+：其前字符至少1次；

{m}：其前的字符m次；

{m,n}：至少m次，至多n次;

{0,n}

{m,}

位置錨定：

^：行首錨定；

$：行尾錨定；

\<, \b：詞首錨定；

\>, \b：詞尾錨定；

分組及引用：

()：分組；括號內的模式匹配到的字符會被記錄於正則表達式引擎的內部變量中；

後向引用：\1, \2, ...

或：

a|b：a或者b；

C|cat：C或cat

(c|C)at：cat或Cat

練習：

1、找出/proc/meminfo文件中，所有以大寫或小寫S開頭的行；至少有三種實現方式；

2、顯示當前系統上root、centos或user1用戶的相關信息；

3、找出/etc/rc.d/init.d/functions文件中某單詞後面跟一個小括號的行

4、使用echo命令輸出一絕對路徑，使用egrep取出基名；

/var/log/messages取出其路徑名；類似於對其執行dirname命令的結果；

5、找出ifconfig命令結果中的1-255之間的數值；

6、找出ifconfig命令結果中的IP地址；

7、添加用戶bash, testbash, basher以及nologin(其shell為/sbin/nologin)；而後找出/etc/passwd文件中用戶名同shell名的行；

解：

1、

[[email protected] sh]# grep -i ‘^s‘ /proc/meminfo

[[email protected] sh]# grep ‘^[sS]‘ /proc/meminfo

[[email protected] sh]# egrep ‘^(s|S)‘ /proc/meminfo

2、首先需要創建用戶

[[email protected] sh]# grep -E "^(root|centos|user1)\>" /etc/passwd

3、[[email protected] sh]# grep -E -o "[_[:alnum:]]+" /etc/rc.d/init.d/functions

4、[[email protected] sh]# echo /etc/sysconfig/ | grep -E -o "[^/]+/?$"

[[email protected] sh]# echo /var/log/messages | grep -E -o "^[/]?.*/"

5、[[email protected] sh]# ifconfig | grep -E -o "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"

6、

7、[[email protected] sh]# grep -E "^([^:]+\>).*\1$" /etc/passwd

fgrep：不支持正則表達式元字符；

當無需要用到元字符去編寫模式時，使用fgrep必能更好、速度更快；

文本查看及處理工具：wc, cut, sort, uniq, diff, patch

wc：word count（統計文本字數）

格式：

wc [OPTION]... [FILE]...

選項：

-l: lines（行數）

-w：words（單詞：所有連續的字母都叫單詞）

-c: bytes（字節數：大小）

示例：

[[email protected]_1 ~]# wc anaconda-ks.cfg

43 101 1143 anaconda-ks.cfg

解：43行、101單詞、1143字符大小

cut：分隔截取指定內容

格式：

cut OPTION... [FILE]...

選項:

-b：以字節為單位進行分割。這些字節位置將忽略多字節字符邊界，除非也指定了 -n 標誌

-n ：取消分割多字節字符。僅和 -b 標誌一起使用。如果字符的最後一個字節落在由 -b 標誌的 List 參數指示的<br />範圍之內，該字符將被寫出；否則，該字符將被排除

-d CHAR：以指定的字符為分隔符；

-f FIELDS：挑選出的字段；

#：指定的單個字段；

#-#：連續的多個字段；

#,#：離散的多個字段；

#-：指定單個字段到最後

示例：

[[email protected]_1 sh]# cat issue | cut -b 2-6

[[email protected]_1 sh]# cat /etc/passwd | cut -d: -f2

sort：排序

格式：

sort [OPTION]... [FILE]...

選項：

-n：基於數值大小而非字符進行排序；

-t CHAR：指定分隔符；

-k #：用於排序比較的字段；

-r：逆序排序；

-f：忽略字符大小寫

-u：重復的行只保留一份；

重復行：連續且相同；

示例：

[[email protected] sh]# sort -t : -k 3 -n /etc/passwd

[[email protected] sh]# sort -t : -k 3 -n -r /etc/passwd

uniq：報告或移除重復的行

格式：

uniq [OPTION]... [INPUT [OUTPUT]]

選項：

-c：顯示每行的重復次數；

-u：僅顯示未曾重復過的行；

-d：僅顯示重復過的的行；

diff：compare files line by line（文件逐行對比）

格式：

diff [OPTION]... FILES

diff /PATH/TO/OLDFILE /PATH/TO/NEWFILE > /PATH/TO/PATCH_FILE

選項：

-u：使用unfied機制，即顯示要修改的行的上下文，默認為3行；

示例：

[[email protected] sh]# diff issue.bak issue >> buding_issue.patch

patch：向文件打補丁

格式：

patch [OPTIONS] -i /PATH/TO/PATCH_FILE /PATH/TO/OLDFILE

[[email protected] sh]# patch -i buding_issue.patch issue

patch /PATH/TO/OLDFILE < /PATH/TO/PATCH_FILE

[[email protected] sh]# patch ./issue < ./buding_issue.patch

註：diff和patch結合使用，首先對比兩個文件中的差異，生成一個補丁文件。在用補丁文件進行指定文件打補丁

本文出自 “變相怪傑” 博客，謝絕轉載！

Linux文本處理"三劍客"--grep

grep、正則表達式稍微接觸過linux都會知道有三個非常強大文本處理工具，那就是grep、sed和awk，想必都有聽說過吧。Linux文本處理三劍客： grep, egrep, fgrep：文本過濾工具（模式：pattern）； grep：基本正則表達式，支持-E，-F egrep

linux文本處理三劍客之grep命令詳解

gawk 軟件 upper edit 進制使用第一個空格 earch Linux文本處理三劍客之grep grep：文本過濾(模式：pattern)工具 grep, egrep, fgrep（不支持正則表達式搜索） sed：stream editor，

Linux文本處理三劍客(grep，sed，awk)

文本處理三劍客grepsedawkLinux文本處理三劍客(grep，sed，awk)

Linux文本處理三劍客之---grep

Linux 命令 grep grep grep: Global search REgular expression and Print out the line作用：文本搜索工具，根據用戶指定的“模式”對目標文本逐行進行匹配檢查；打印匹配到的行模式：由正則表達式字符及文本字符所編寫的過

Linux文本處理三劍客之grep

劃線指定 shu div 技術分享日常 memfree 固定過濾簡介 grep命令，用於在一個文本文件中或者從STDIN中，根據用戶給出的模式（pattern）過濾出所需要的信息。 grep以及三劍客中的另外兩個工具sed和awk都是基於行處理的，它們會一行行讀入數

Linux文本處理三劍客

img 目標文本過濾 sta 生成器指定 grub2 功能空白 Grep: 文本過濾工具，（grep,egrep,fgrep) Sed：文本編輯工具， Awk: 文本報告生成器 grep : 作用文本搜索工具，根據用戶指定的‘模式對目標文件逐步進行匹配檢查，

Linux文本處理工具之grep sed簡概

graph 不可 -i 並不會以及符號簡化哲學末尾 Linux文本處理工具之grep sed 在Linux系統中，有一個哲學思想：Linux系統下，一切皆文件。由此可見，有關文本處理的工具有多重要，而我們經常用到文本處理工具主要有grep，sde，以及a

Linux文本處理之grep

腳本進行 mail egrep 一次裏的轉義 span 數字 Linux 文本處理之grep 我們經常會遇到只需要一個文件裏的只言片語，比如從文件裏獲取一串字符或者樣式，可以用cat +文件一個一個找，這樣不僅效率低，而且海量的字符會讓你奔潰的。這個時候需要

linux文本處理杏彩平臺出租工具之grep與正則表達式語法

() 創建文件打印字符字符指定 gre lin 查找 Grep介紹Linux 文本處理三劍客之一，文件過濾工具（另外兩劍客為sed：文本編輯工具，awk：文本報告生成器）擁有著，根據用戶指定的“模式”對目標文本逐行進行匹配檢查；打印匹配到的行的功能。使用Grep

linux文本處理三劍客之sed

編輯命令 color 註意正則表達搜索 sed 保持空間則表達式 lin 上一節我們已經學習過了grep,今天來學習sed。它是按照script的指令，來處理，編輯一個或多個文本文件，簡化對文件的反復操作，編寫轉換程序等。 sed用法 sed

Linux 文本處理劍客grep

同構標點符號元字符單詞 str 作文行處理 tro shell grep(grep: Global search REgular expression and Print out the line)用作文本搜索工具，旨在根據其Pattern逐行打印匹配到的行。其中p

Linux文本處理三劍客之awk（一）

awk變量信息 tro 不同當前 block 文件中是否定義變量 AWK是一個優良的文本處理工具，Linux及Unix環境中現有的功能最強大的數據處理引擎之一。其名稱得自於它的創始人阿爾佛雷德·艾侯、彼得·溫伯格和布萊恩·柯林漢姓氏的首個字母

Linux文本處理三劍客awk （二）

退出 action ram out scrip 設計 default dup 性能前一篇文章分享了awk的一些基本概念和用法，這篇分享的是awk的一些高級用法。在學習awk的過程中，對比我之前學過的C語言，我發現awk裏的while,for,cas

Linux文本處理三劍客——awk詳細用法

依次格式使用換行符引用參數固定 value 屏幕 awk是行處理器: 相比較屏幕處理的優點，在處理龐大文件時不會出現內存溢出或是處理緩慢的問題，通常用來格式化文本信息。awk處理過程: 依次對每一行進行處理，然後輸出。 awk命令形式：awk [-F|-f|-

Linux文本處理工具之grep

目錄分組 lin col block grep 指定格式需要文本處理三劍客之GREP 文本過濾工具：glob 用於實現bash中的文件名通配通配符： *：任意長度的任意字符 ?：任意單個字符 [ ]：明確指明匹配範圍內的單個字符 [abc]：abc

Linux文本處理工具

linux、grep、sed、awk1、grep grep（global search regular expression(RE) and print out the line，全面搜索正則表達式並把行打印出來）是一種強大的文本搜索工具，它能使用正則表達式搜索文本，並把匹配的行打印出來。語法

Linux 文本處理命令

linux 中的文本處理命令1. cat : concatnateoptions : -n : number 顯示行號 -E : end 顯示每行結尾的標識符 (Linux 中每行結尾的標識符為 $ ,而Windows 中為 $+ 回車 ) -v : visible 可見的

Linux文本處理命令“sed”簡解

linux sed 文本處理編輯命令sed命令格式： sed [選項] ‘(截取的行)[動作]‘ 文件名選項：-n：只把經過sed處理的行輸出 -e：允許輸入多條動作 -i：sed修改的結果寫入文件截取行：(1)直接輸入行號 (2)/正則表達式/ (3)x

Linux文本處理命令“awk”簡解

linux awk awk 格式： awk [option] ‘條件1{動作1}條件2{動作2}...‘ 文件名條件：正則表達式；邏輯判斷式動作：格式化輸出；流程控制語句選項： -F 指定分割符變量： $1 $2 ... 第某列 NR 行號

Linux文本處理工具sed練習題

sed練習1、使用sed命令打印出ifconfig ens33的ip地址解:(1)ifconfig ens33 | sed -n '2p' | sed 's/.*inet //' | sed 's/netmask.*//' (2)ifconfig ens33

Linux文本處理"三劍客"--grep

相關推薦