1. 程式人生 > 程式設計 >linux 正則表示式grep例項分析

linux 正則表示式grep例項分析

在很多技術領域(如:自然語言處理,資料儲存等),正則表示式可以很方便的提取我們想要的資訊,所以正則表示式是一個很重要的知識點!

一、概念

正則表示式(Regular Expression)是用於描述一組字串特徵的模式,用來匹配特定的字串。通過特殊字元+普通字元來進行模式描述,從而達到文字匹配目的工具。

正則表示式目前被整合到了各種文字編輯器/文字處理工具當中

二、應用場景

(1)驗證:表單提交時,進行使用者名稱密碼的驗證。

(2)查詢:從大量資訊中快速提取指定內容,在一批url中,查詢指定url。

(3)替換:將指定格式的文字進行正則匹配查詢,找到之後進行特定替換。

三、基本要素

(1)字元類

(2)數量限定符

(3)位置限定符

(4)特殊符號

注意:正則表示式基本是與語言無關的,我們可以結合語言/工具與正則表示式進行文字處理,在後面的部落格中,我將使用grep來進行驗證。(grep是一款Linux下按行匹配文字的工具,如下,使我們常使用的兩個選項)

-E:使用擴充套件正則匹配

--color:將匹配得到的內容進行語法高亮

1.字元類

linux 正則表示式grep例項分析

舉例如下:

例1:

linux 正則表示式grep例項分析

注意:1.grep採用的貪心匹配,它會匹配當前行中的所有匹配內容

2.echo $?表示是否匹配成功(如果成功返回值為0,不成功返回值為1)

例2:

linux 正則表示式grep例項分析

例3:

linux 正則表示式grep例項分析

例4:

linux 正則表示式grep例項分析

例5:

linux 正則表示式grep例項分析

2.數量限定符

linux 正則表示式grep例項分析

舉例如下:

例1:

linux 正則表示式grep例項分析

例2:

linux 正則表示式grep例項分析

由此,我們可以看出,“前面的單元”預設是指?或+前面的字元

例3:

linux 正則表示式grep例項分析

例4:

linux 正則表示式grep例項分析

例5:

linux 正則表示式grep例項分析

例6:

linux 正則表示式grep例項分析

注意:該結果為匹配失敗,在相關文件中並未出現,應該啊是錯誤或者廢棄的用法

例7:

linux 正則表示式grep例項分析

3.位置限定符

linux 正則表示式grep例項分析

舉例如下:

例1:

linux 正則表示式grep例項分析

例2:

linux 正則表示式grep例項分析

例3:

linux 正則表示式grep例項分析

例4:

linux 正則表示式grep例項分析

例5:

linux 正則表示式grep例項分析

例6:

linux 正則表示式grep例項分析

4.特殊符號

linux 正則表示式grep例項分析

舉例如下:

linux 正則表示式grep例項分析

假如我們去掉-E選項,會有什麼現象呢?

linux 正則表示式grep例項分析

此時,不難發現,去掉-E選項之後沒有進行正常的正則匹配,這種現象需要我們引入如下的兩個概念!

5.基本正則表示式&擴充套件正則表示式

區別:正則表示式的擴充套件正則(Extended規範)和基本正則(Basic規範)下,有些字元linux 正則表示式grep例項分析

應該解釋為普通字元,要表示上述特殊含義則需要加“\”轉義字元。反之,在擴充套件規範下,linux 正則表示式grep例項分析應被理解為特殊含義,要取其字面值,也要對其進行“\”轉義。

因此,grep工具帶上-E選項,表示使用擴充套件正則來進行匹配,若沒有該選項,則表示使用基準正則來進行匹配。

對於上述的問題,我們舉例如下:

例1:

linux 正則表示式grep例項分析

例2:當目標字串當中本身就包含了linux 正則表示式grep例項分析字元,要想進行正則匹配,應該這樣做:

linux 正則表示式grep例項分析

例3:

linux 正則表示式grep例項分析

5.其他普通字符集及其替換

linux 正則表示式grep例項分析

舉個例子:

linux 正則表示式grep例項分析

綜上,正則表示式有以下三個分類:

(1)基本正則表示式:Basic即BPEs

(2)擴充套件正則表示式:Extended即EREs

(3)Perl的正則表示式:PREs

因此,當grep指令不跟任何引數時,表示要使用BREs,後面跟“-E”表示使用EREs,後面跟“-P”引數,表示使用PREs

四、貪婪模式與非貪婪模式

1.貪婪模式:正則表示式匹配時,會盡量多的匹配符合條件的內容

舉例如下:

linux 正則表示式grep例項分析

注意:grep預設採用貪婪匹配,可能會對我們的測試結果造成干擾,大家可以上網使用“正則線上轉換工具”進行測試

2.非貪婪模式:正則表示式匹配時,會盡量少的匹配符合條件的內容,也就是說,一旦發現匹配符合要求,立馬就匹配成功,而不會繼續匹配下去(除非有g,開啟下一組匹配)

舉例如下:

linux 正則表示式grep例項分析

五、零寬斷言

1.所謂斷言,是用來宣告一個應該為真的事實。在正則表示式中,只有當斷言為真時才會繼續進行匹配。

2.零寬斷言:像用於查詢某些內容之前或者之後的東西,其中一些特殊字元如“\b、^、$”等用於指定一個位置,這個位置應滿足一定的條件。

3.分類:

(1)零寬度正預測先行斷言(?=exp)

它斷言自身出現的位置之後能匹配的表示式exp。如:\b\w+(?=ing\b),表示匹配以ing結尾的單詞的前面的部分(除ing以外的部分)。當我們要查詢“I'm singing while you're dancing.”時,它會匹配sing和danc

舉例如下:

linux 正則表示式grep例項分析

(2)零寬度正回顧後發斷言(?>=exp)

它斷言自身出現的位置的前面能匹配的表示式exp。如:(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除er以外的部分),例如:在查詢“reading a book”時,它匹配ading

舉例如下:

linux 正則表示式grep例項分析

六、簡單練習

1.手機號碼

linux 正則表示式grep例項分析

2.非零的正整數

linux 正則表示式grep例項分析

3.非零開頭的最多帶兩位小數的數字

linux 正則表示式grep例項分析

4.由數字和26位字母組成的字串

linux 正則表示式grep例項分析

5.QQ號,從10000開始

linux 正則表示式grep例項分析

6.IP地址

\d+\.\d+\.\d+\.\d+

7.判斷賬號是否合法

^[a-zA-Z0-9][a-zA-Z0-9_]{4,15}$

8.日期格式

^\d{4}-\d{1,2}-\d{1,2}

正則表示式的學習就到這裡結束啦,如果有小夥伴沒有看明白的,可以上網查詢正則的更多知識點!