1. 程式人生 > >Linux之正則表達式

Linux之正則表達式

upper body 16px 大小 html 管道 lower egrep 小寫字母

正則表達式與通配符的區別:

  • 最常應用正則表達式的命令是grep(egrep),sed,awk。
  • 正則表達式和通配符有本質區別,正則表達式用來找:【文件】內容,文本,字符串。一般只有三劍客支持。通配符用來找:文件名。普通命令都支持

正則表達式的分類

POSIX規範將正則表達式的分為了兩種

  • 基本正則表達式(BRE,basic regular expression
  • 高級功能:擴展正則表達式(ERE,extended regular expression

BRE和ERE的區別僅僅是元字符的不同

  • BRE(基礎正則表達式)只承認的元字符有^$.[]* 其他字符識別為普通字符:\(\)
  • ERE(擴展正則表達式)則添加了(){}?+|等
  • 只有在用反斜杠“\”進行轉義的情況下,字符(){}才會在BRE被當作元字符處理,而BRE中,任何元符號前面加上反斜杠反而會使其被當作普通字符來處理。

基礎正則表達式

字符描述
^ ^word: 搜索以word開頭的內容
$ word$: 搜索以word結尾的內容
^$ 表示空行,不是空格
. 代表且只能代表任意一個字符(不匹配空行)
\ 轉義字符,讓有特殊含義的字符脫掉馬甲,現出原形,如\.只表示小數點
* 重復之前的字符或文本0個或多個,之前的文本或字符連續0次或多次
.* 任意多個字符
^.* 以任意多個字符串開頭,.*盡可能多,有多少算多少,貪婪性
[^abc] 匹配不包含^後的任意字符a或b或c,是對[abc]的取反,且與^含義不同
a\{n,m\} 重復前面a字符n到m次(如果用egrep或sed -r可去掉斜線)

技術分享

技術分享

技術分享

技術分享

技術分享

a\{n,\}重復前面a字符至少n次,如果用egrep或sed -r可去掉斜線
a\{n\} 重復前面a字符n次,如果用egrep或sed -r可去掉斜線
--- ---

擴展正則表達式ERE

特殊字符含義與例子
+ 重復前一個字符一次或一次以上,前一個字符連續一個或多個,把連續的文本/字符取出
? 重復前面一個字符0次或1次(.是有且只有1個)
管道符| 表示或者同時過濾多個字符
() 分組過濾被括起來的東西表示一個整體(一個字符)

技術分享

技術分享

管道符|

技術分享

(): 分組過濾被括起來的東西表示一個整體(一個字符)

技術分享

最早的文本匹配程序,使用POSIX定義的基本正則表達式(BRE)來匹配文本。

  • grep -E 強制讓grep直接認識正則符號,不需要再進行轉義
  • egrep 等效grep -E 天生就能認識正則符號
  • 我們平時備份可以通過cp 文件名{,.bak}的形式進行,避免再打一次文件名
  • sed -r :讓sed支持正則

基本正則和擴展正則區別

基礎正則BRE擴展正則ERE
\? ?
\+ +
\{\} {}
\( \ ) ()
\

所謂基礎正則實際上就是得需要轉義字符配合表達的正則,而擴展正則就是讓命令擴展它的權限讓他直接就認識正則表達符號(egrep,sed -r,awk直接支持)

補充說明

1 一些預定義的:

正則表達式描述示例
[:alnum:] [a-zA-Z0-9]匹配任意一個字母或數字字符 [[:alnum:]]+
[:alpha:] 匹配任意一個字母字符(包括大小寫字母) [[:alpha:]]{4}
[:blank:] 空格與制表符(橫向縱向) [[:blank:]]*
[:digit:] 匹配任意一個數字字符 [[:digit:]]?
[:lower:] 匹配小寫字母 [[:lower:]]{5,}
[:upper:] 匹配大寫字母 ([[:upper:]]+)?
[:punct:] 匹配標點符號 [[:punct:]]
[:space:] 匹配一個包括換行符,回車等在內的所有空白符 [[:space:]]+
[:graph:] 匹配任何一個可以看得見的且可以打印的字符 [[:graph:]]
[:xdigit:] 任何一個十六進制數 [[:xdigit:]]+
[:cntrl:] 任何一個控制字符(ASCII字符集中的前32個字符) [[:cntrl:]]
[:print:] 任何一個可以打印的字符 [[:print:]]

2 元字符

元字符是一種Perl風格的正則表達式,只有一部分文本處理工具支持它,並不是所有的文本處理工具都支持

正則表達式描述示例
\b 單詞邊界 \bcool\b匹配cool,不匹配coolant
\B 非單詞邊界 cool\B匹配coolant不匹配cool
\d 單個數字字符 b\db匹配b2b,不匹配bcb
\D 單個非數字字符 b\Db匹配bcb不匹配b2b
\w 單個單詞字符(字母,數字與_) \w匹配1或a,不匹配&
\W 單個非單詞字符 \W匹配&,不匹配1或a
\n 換行符 \n匹配一個新行
\s 單個空白字符 x\sx匹配xx,不匹配xx
\S 單個非空白字符 x\S\x匹配xkx,不匹配xx
\r 回車 \r匹配回車
\t 橫向制表符 \t匹配一個橫向制表符
\v 垂直制表符 \v匹配一個垂直制表符
\f 換頁符 \f匹配一個換頁符

參考博客:http://www.cnblogs.com/chensiqiqi/p/6285060.html

Linux之正則表達式