復習總結正則表達式-上
網上有很多關於正則表達式快速入門的教程,此篇文章僅僅是我看文章的理解,關於正則表達式的資料我已經放到我的GitHub上面了歡迎大家star or fork me.
(我的GitHub是https://github.com/MartinWuQing)
1.什麽叫正則表達式。
正則表達式,又稱規則表達式。(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE)。
正則表通常被用來查找、替換那些符合某個模式(規則)的文本,正則表達式就是用來做這件事的工具。
就像Windows/Dos下用於文件查找的通配符(wildcard),也就是*和?。如果你想查找某個目錄下的所有的Word文檔的話,你會搜索*.doc。在這裏,*會被解釋成任意的字符串。和通配符類似,正則表達式也是用來進行文本匹配的工具,只不過比起通配符,它能更精確
(Talk is cheap ,show you the code )
2.常用的正則表達式元字符
先介紹一個概念:元字符metacharacter
所謂元字符就是指那些在正則表達式中具有特殊意義的專用字符,就是下面的紅色的字符。
(1)\b : 代表著單詞的開頭或結尾,也就是單詞的分界處,只替換一個位置
比如要精確找到謀篇文章裏面的hello這個單詞那麽,正則表達式就應該是這個樣子:
(2) . : . 代表匹配除了換行符以外的任意字符
(3) * :它代表的不是字符,也不是位置,而是數量——它指定*前邊的內容可以連續重復使用任意次以使整個表達式得到匹配。
例子: 要找hello後面不遠的liming這個單詞:
正則表達式為:\bhello\b.*\bLucy\b
意思就很明顯了:先是一個單詞hello然後是任意個任意字符(但不能是換行),最後是liming這個單詞
(4)\d :匹配一位數字(0,或1,或2,或……)
例子:中國電話號碼 形式用正則表達式表達出來:
正則表達式:0\d\d-\d\d\d\d\d\d\d\d (註:-不是元字符,只匹配它本身——連字符(或者減號,或者中橫線,或者隨你怎麽稱呼它)
或者:0\d{2}-\d{8} (註:這裏\d後面的{2}({8})的意思是前面\d必須連續重復匹配2次(8次))
(5)\s :匹配任意的空白符,包括空格,制表符(Tab),換行符,中文全角空格等
(6)\w :匹配字母或數字或下劃線或漢字等
例子:\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b),然後是字母a,然後是任意數量的字母或數字(\w*),最後是單詞結束處(\b)。
(7)+ :+是和*類似的元字符,不同的是*匹配重復任意次(可能是0次),而+則匹配重復1次或更多次。
例子:\d+匹配1個或更多連續的數字
\b\w{6}\b 匹配剛好6個字符的單詞
(8)^ :匹配字符串的開始
(9)$ :匹配字符串的結束
元字符^(和數字6在同一個鍵位上的符號)和$都匹配一個位置,這和\b有點類似。^匹配你要用來查找的字符串的開頭,$匹配結尾。
例子:qq號規定5-12位的數字:^\d{5,12}$
這裏的{5,12}和前面介紹過的{2}是類似的,只不過{2}匹配只能不多不少重復2次,{5,12}則是重復的次數不能少於5次,不能多於12次,否則都不匹配。
因為使用了^和$,所以輸入的整個字符串都要用來和\d{5,12}來匹配,也就是說整個輸入必須是5到12個數字,因此如果輸入的QQ號能匹配這個正則表達式的話,
那就符合要求了。
和忽略大小寫的選項類似,有些正則表達式處理工具還有一個處理多行的選項。如果選中了這個選項,^和$的意義就變成了匹配行的開始處和結束處。
3.字符轉義
如果你想查找元字符本身的話,比如你查找.,或者*,就出現了問題:你沒辦法指定它們,因為它們會被解釋成別的意思。
這時你就得使用\來取消這些字符的特殊意義。
因此,你應該使用\.和\*。當然,要查找\本身,你也得用\\
例如mahuaqun.net 用正則表達式為:mahuaqun\.net
4. 關於代表重復的限定符
(1)*重復零次或更多次
(2)+重復一次或更多次
(3)?重復零次或一次
(4){n}重復n次
(5){n,}重復n次或更多次
(6){n,m}重復n到m次
例子:
Windows\d+匹配Windows後面跟1個或更多數字
^\w+匹配一行的第一個單詞(或整個字符串的第一個單詞,具體匹配哪個意思得看選項設置)
5.匹配一個字符或一個範圍
[ ] :
(1)匹配括號裏面的任何一個字符
例子: [aeiou] :就匹配任何一個英文元音字母
[.?!]匹配標點符號(.或?或!)
(2)指定一個範圍
例子:[0-9]代表的含意與\d就是完全一致的:一位數字
[a-z0-9A-Z_]也完全等同於\w(如果只考慮英文的話)
下面是一個更復雜的表達式:\(?0\d{2}[) -]?\d{8}。
“(”和“)”也是元字符,後面會提到,所以在這裏需要使用轉義。
這個表達式可以匹配幾種格式的電話號碼,像(010)88886666,或022-22334455,或02912345678等。我們對它進行一些分析吧:首先是一個轉義字符\(,它能出現0次或1次(?),然後是一個0,後面跟著2個數字(\d{2}),然後是)或-或空格中的一個,它出現1次或不出現(?),最後是8個數字(\d{8})。
6.正則表達式中的“或”
|: |可以把不同的規則分隔開
例子:
0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能匹配兩種以連字號分隔的電話號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)。
\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式匹配3位區號的電話號碼,其中區號可以用小括號括起來,也可以不用,區號與本地號間可以用連字號或空格間隔,也可以沒有間隔。你可以試試用分枝條件把這個表達式擴展成也支持4位區號的。
\d{5}-\d{4}|\d{5}這個表達式用於匹配美國的郵政編碼。美國郵編的規則是5位數字,或者用連字號間隔的9位數字。之所以要給出這個例子是因為它能說明一個問題:使用分枝條件時,要註意各個條件的順序。如果你把它改成\d{5}|\d{5}-\d{4}的話,那麽就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配分枝條件時,將會從左到右地測試每個條件,如果滿足了某個分枝的話,就不會去再管其它的條件了。
7.分組(給字符串)
我們已經提到了怎麽重復單個字符(直接在字符後面加上限定符就行了);
但如果想要重復多個字符又該怎麽辦?
你可以用小括號來指定子表達式(也叫做分組),然後你就可以指定這個子表達式的重復次數了,你也可以對子表達式進行其它一些操作(後面會有介紹)。
(): 分組
例子:
(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配表達式。要理解這個表達式,請按下列順序分析它:\d{1,3}匹配1到3位的數字,(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重復3次,最後再加上一個一到三位的數字(\d{1,3})。
註意:IP地址中每個數字都不能大於255
不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址。如果能使用算術比較的話,或許能簡單地解決這個問題,但是正則表達式中並不提供關於數學的任何功能,所以只能使用冗長的分組,選擇,字符類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。
理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裏我就不細說了,你自己應該能分析得出來它的意義。
8.反義
有時需要查找不屬於某個能簡單定義的字符類的字符。比如想查找除了數字以外,其它任意字符都行的情況,這時需要用到反義:
\W :匹配任意不是字母,數字,下劃線,漢字的字符
\S :匹配任意不是空白符的字符
\D :匹配任意非數字的字符
\B :匹配不是單詞開頭或結束的位置
[^x] :匹配除了x以外的任意字符
[^aeiou]:匹配除了aeiou這幾個字母以外的任意字符
例子:\S+匹配不包含空白符的字符串。
<a[^>]+>匹配用尖括號括起來的以a開頭的字符串。
復習總結正則表達式-上