1. 程式人生 > >java正則表示式解析

java正則表示式解析

“正則表示式”到用時方恨少!

學習正則表示式,我覺得還是要循循漸進,由易到難,一點點深入......(本人也在學習中這裡提供個人理解思路,以及一些大神們的獨到講解。。。。。。)

一、知道java正則表示式是幹什麼的?

百度百科定義:

其實這已經說得很明確了,正則表示式其實就是一個字串,這個字串是按照一定的規則進行組合得來的,而這個規則當然是創始者定義,用這些規則我們能做什麼呢?看紅色曲線,這個“規則字串”用來表達對字串(這裡的字串是我們自己的)的一種過濾邏輯。

正則表示式的目的:

給定一個正則表示式和另一個字串,我們可以達到如下的目的:

1. 給定的字串是否符合正則表示式的過濾邏輯(稱作“匹配”):

2. 可以通過正則表示式,從字串中獲取我們想要的特定部分。

第一條解釋,意思就是我們寫了一個字串,這些字串是否符合正則表示式的過濾邏輯,舉個例子:

手機號碼

^1[3|4|5|8][0-9]\\d{8}$ 

這是我在網上找的例子,這個正則表示式是一個手機號碼的表示式,那麼就是說我們寫了一個字串13023629739,這個電話號碼就是符合這個正則表示式的。

第二條解釋,假如我們要從一個html頁面中過濾一些css與js的url,那麼整個html就是給定的字串,而css與js的url就是我們想要的特定的部分。

二、java正則表示式是怎麼用的?

   知道了正則表示式是幹什麼的,就要說說他在java中是怎麼用的。我直接上程式碼:(匹配實現替換功能

String  str ="13023629739";
//該方法接受一個正則表示式作為它的第一個引數。
Pattern p = Pattern.compile("^1[3|4|5|8][0-9]\\d{8}$");
//對輸入str進行解釋和匹配操作
Matcher m = p.matcher(str);
if(m.find() ==true) {
	String replaceAll = str.replaceAll(m.group(), "12345678910");
	System.out.println(replaceAll);
}

輸出結果:

12345678910

這裡用到java.util.regex 包。

主要包括以下三個類:

  • Pattern 類:

    pattern 物件是一個正則表示式的編譯表示。Pattern 類沒有公共構造方法。要建立一個 Pattern 物件,你必須首先呼叫其公共靜態編譯方法,它返回一個 Pattern 物件。該方法接受一個正則表示式作為它的第一個引數。

  • Matcher 類:

    Matcher 物件是對輸入字串進行解釋和匹配操作的引擎。與Pattern 類一樣,Matcher 也沒有公共構造方法。你需要呼叫 Pattern 物件的 matcher 方法來獲得一個 Matcher 物件。

  • PatternSyntaxException:

    PatternSyntaxException 是一個非強制異常類,它表示一個正則表示式模式中的語法錯誤。

三、弄清楚( )、[ ]、{ }的作用 

 我初學正則時被這三個括號給整的五迷三道的,現在找了一些資料供大家理解。

正則表示式的() [] {}有不同的意思。

() 是為了提取匹配的字串。表示式中有幾個()就有幾個相應的匹配字串。

(\s*)表示連續空格的字串。

[]是定義匹配的字元範圍。比如 [a-zA-Z0-9] 表示相應位置的字元要匹配英文字元和數字。[\s*]表示空格或者*號。

{}一般用來表示匹配的長度,比如 \s{3} 表示匹配三個空格,\s{1,3}表示匹配一到三個空格。

(0-9) 匹配 '0-9′ 本身。 [0-9]* 匹配數字(注意後面有 *,可以為空)[0-9]+ 匹配數字(注意後面有 +,不可以為空){1-9} 寫法錯誤。

[0-9]{0,9} 表示長度為 0 到 9 的數字字串。

——————————————————————————————————————————————————————

圓括號()是組,主要應用在限制多選結構的範圍/分組/捕獲文字/環視/特殊模式處理
示例:
1、(abc|bcd|cde),表示這一段是abc、bcd、cde三者之一均可,順序也必須一致
2、(abc)?,表示這一組要麼一起出現,要麼不出現,出現則按此組內的順序出現
3、(?:abc)表示找到這樣abc這樣一組,但不記錄,不儲存到$變數中,否則可以通過$x取第幾個括號所匹配到的項,比如:(aaa)(bbb)(ccc)(?:ddd)(eee),可以用$1獲取(aaa)匹配到的內容,而$3則獲取到了(ccc)匹配到的內容,而$4則獲取的是由(eee)匹配到的內容,因為前一對括號沒有儲存變數
4、a(?=bbb) 順序環視 表示a後面必須緊跟3個連續的b
5、(?i:xxxx) 不區分大小寫 (?s:.*) 跨行匹配.可以匹配回車符

方括號是單個匹配,字符集/排除字符集/命名字符集
示例:
1、[0-3],表示找到這一個位置上的字元只能是0到3這四個數字,與(abc|bcd|cde)的作用比較類似,但圓括號可以匹配多個連續的字元,而一對方括號只能匹配單個字元
2、[^0-3],表示找到這一個位置上的字元只能是除了0到3之外的所有字元
3、[:digit:] 0-9 [:alnum:] A-Za-z0-9

——————————————————————————————————————————————————————

()和[]有本質的區別
()內的內容表示的是一個子表示式,()本身不匹配任何東西,也不限制匹配任何東西,只是把括號內的內容作為同一個表示式來處理,例如(ab){1,3},就表示ab一起連續出現最少1次,最多3次。如果沒有括號的話,ab{1,3},就表示a,後面緊跟的b出現最少1次,最多3次。另外,括號在匹配模式中也很重要。這個就不延伸了,LZ有興趣可以自己查查
[]表示匹配的字元在[]中,並且只能出現一次,並且特殊字元寫在[]會被當成普通字元來匹配。例如[(a)],會匹配(、a、)、這三個字元。
所以() [] 無論是作用還是表示的含義,都有天壤之別,沒什麼聯絡

——————————————————————————————————————————————————————

 四、搞懂正則表示式語法

在其他語言中,\\ 表示:我想要在正則表示式中插入一個普通的(字面上的)反斜槓,請不要給它任何特殊的意義。

在 Java 中,\\ 表示:我要插入一個正則表示式的反斜線,所以其後的字元具有特殊的意義。

所以,在其他的語言中(如Perl),一個反斜槓 \ 就足以具有轉義的作用,而在 Java 中正則表示式中則需要有兩個反斜槓才能被解析為其他語言中的轉義作用。也可以簡單的理解在 Java 的正則表示式中,兩個 \\ 代表其他語言中的一個 \,這也就是為什麼表示一位數字的正則表示式是 \\d,而表示一個普通的反斜槓是 \\\\。

字元

說明

\

將下一字元標記為特殊字元、文字、反向引用或八進位制轉義符。例如,"n"匹配字元"n"。"\n"匹配換行符。序列"\\\\"匹配"\\","\("匹配"("。

^

匹配輸入字串開始的位置。如果設定了 RegExp 物件的 Multiline 屬性,^ 還會與"\n"或"\r"之後的位置匹配。

$

匹配輸入字串結尾的位置。如果設定了 RegExp 物件的 Multiline 屬性,$ 還會與"\n"或"\r"之前的位置匹配。

*

零次或多次匹配前面的字元或子表示式。例如,zo* 匹配"z"和"zoo"。* 等效於 {0,}。

+

一次或多次匹配前面的字元或子表示式。例如,"zo+"與"zo"和"zoo"匹配,但與"z"不匹配。+ 等效於 {1,}。

?

零次或一次匹配前面的字元或子表示式。例如,"do(es)?"匹配"do"或"does"中的"do"。? 等效於 {0,1}。

{n}

是非負整數。正好匹配 n 次。例如,"o{2}"與"Bob"中的"o"不匹配,但與"food"中的兩個"o"匹配。

{n,}

是非負整數。至少匹配 次。例如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有 o。"o{1,}"等效於"o+"。"o{0,}"等效於"o*"。

{n,m}

m 和 n 是非負整數,其中 n <= m。匹配至少 n 次,至多 m 次。例如,"o{1,3}"匹配"fooooood"中的頭三個 o。'o{0,1}' 等效於 'o?'。注意:您不能將空格插入逗號和數字之間。

?

當此字元緊隨任何其他限定符(*、+、?、{n}、{n,}、{n,m})之後時,匹配模式是"非貪心的"。"非貪心的"模式匹配搜尋到的、儘可能短的字串,而預設的"貪心的"模式匹配搜尋到的、儘可能長的字串。例如,在字串"oooo"中,"o+?"只匹配單個"o",而"o+"匹配所有"o"。

.

匹配除"\r\n"之外的任何單個字元。若要匹配包括"\r\n"在內的任意字元,請使用諸如"[\s\S]"之類的模式。

(pattern)

匹配 pattern 並捕獲該匹配的子表示式。可以使用 $0…$9 屬性從結果"匹配"集合中檢索捕獲的匹配。若要匹配括號字元 ( ),請使用"\("或者"\)"。

(?:pattern)

匹配 pattern 但不捕獲該匹配的子表示式,即它是一個非捕獲匹配,不儲存供以後使用的匹配。這對於用"or"字元 (|) 組合模式部件的情況很有用。例如,'industr(?:y|ies) 是比 'industry|industries' 更經濟的表示式。

(?=pattern)

執行正向預測先行搜尋的子表示式,該表示式匹配處於匹配 pattern 的字串的起始點的字串。它是一個非捕獲匹配,即不能捕獲供以後使用的匹配。例如,'Windows (?=95|98|NT|2000)' 匹配"Windows 2000"中的"Windows",但不匹配"Windows 3.1"中的"Windows"。預測先行不佔用字元,即發生匹配後,下一匹配的搜尋緊隨上一匹配之後,而不是在組成預測先行的字元後。

(?!pattern)

執行反向預測先行搜尋的子表示式,該表示式匹配不處於匹配 pattern 的字串的起始點的搜尋字串。它是一個非捕獲匹配,即不能捕獲供以後使用的匹配。例如,'Windows (?!95|98|NT|2000)' 匹配"Windows 3.1"中的 "Windows",但不匹配"Windows 2000"中的"Windows"。預測先行不佔用字元,即發生匹配後,下一匹配的搜尋緊隨上一匹配之後,而不是在組成預測先行的字元後。

x|y

匹配 x 或 y。例如,'z|food' 匹配"z"或"food"。'(z|f)ood' 匹配"zood"或"food"。

[xyz]

字符集。匹配包含的任一字元。例如,"[abc]"匹配"plain"中的"a"。

[^xyz]

反向字符集。匹配未包含的任何字元。例如,"[^abc]"匹配"plain"中"p","l","i","n"。

[a-z]

字元範圍。匹配指定範圍內的任何字元。例如,"[a-z]"匹配"a"到"z"範圍內的任何小寫字母。

[^a-z]

反向範圍字元。匹配不在指定的範圍內的任何字元。例如,"[^a-z]"匹配任何不在"a"到"z"範圍內的任何字元。

\b

匹配一個字邊界,即字與空格間的位置。例如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er"。

\B

非字邊界匹配。"er\B"匹配"verb"中的"er",但不匹配"never"中的"er"。

\cx

匹配 x 指示的控制字元。例如,\cM 匹配 Control-M 或回車符。x 的值必須在 A-Z 或 a-z 之間。如果不是這樣,則假定 c 就是"c"字元本身。

\d

數字字元匹配。等效於 [0-9]。

\D

非數字字元匹配。等效於 [^0-9]。

\f

換頁符匹配。等效於 \x0c 和 \cL。

\n

換行符匹配。等效於 \x0a 和 \cJ。

\r

匹配一個回車符。等效於 \x0d 和 \cM。

\s

匹配任何空白字元,包括空格、製表符、換頁符等。與 [ \f\n\r\t\v] 等效。

\S

匹配任何非空白字元。與 [^ \f\n\r\t\v] 等效。

\t

製表符匹配。與 \x09 和 \cI 等效。

\v

垂直製表符匹配。與 \x0b 和 \cK 等效。

\w

匹配任何字類字元,包括下劃線。與"[A-Za-z0-9_]"等效。

\W

與任何非單詞字元匹配。與"[^A-Za-z0-9_]"等效。

\xn

匹配 n,此處的 n 是一個十六進位制轉義碼。十六進位制轉義碼必須正好是兩位數長。例如,"\x41"匹配"A"。"\x041"與"\x04"&"1"等效。允許在正則表示式中使用 ASCII 程式碼。

\num

匹配 num,此處的 num 是一個正整數。到捕獲匹配的反向引用。例如,"(.)\1"匹配兩個連續的相同字元。

\n

標識一個八進位制轉義碼或反向引用。如果 \n 前面至少有 n 個捕獲子表示式,那麼 n 是反向引用。否則,如果 n 是八進位制數 (0-7),那麼 n是八進位制轉義碼。

\nm

標識一個八進位制轉義碼或反向引用。如果 \nm 前面至少有 nm 個捕獲子表示式,那麼 nm 是反向引用。如果 \nm 前面至少有 n 個捕獲,則 n 是反向引用,後面跟有字元 m。如果兩種前面的情況都不存在,則 \nm 匹配八進位制值 nm,其中 和 m 是八進位制數字 (0-7)。

\nml

當 n 是八進位制數 (0-3),m 和 l 是八進位制數 (0-7) 時,匹配八進位制轉義碼 nml

\un

匹配 n,其中 n 是以四位十六進位制數表示的 Unicode 字元。例如,\u00A9 匹配版權符號 (©)。

 

 知道了這些我覺得就需要很多的練習才能掌握住正則表示式。。。我也在學習過程,後續會把自己的學習經歷寫下來!

小例子1:字串中找數字(寫法因人而異)

/**
 * 字串中找到數字
 * @author Administrator
 *
 */
public class FindNum {
	public static void main(String[] args) {
		//等價於String pattern="[0-9]{3}";
		String pattern="[0-9]+";
		String str = "abc123def";
		Pattern p = Pattern.compile(pattern);
		Matcher m = p.matcher(str);
		if(m.find() ==true) {
			String string=m.group();
			System.out.println(string);
		}
	}
}

小例子二:匹配檔案

/**
 * 匹配檔案
 * @author Administrator
 *
 */
public class File {
	public static void main(String[] args) {
		String file1="data.dat";
		String file2="data1.dat";
		String file3="data2.dat";
		String file4="datax.dat";
		String file5="dataN.dat";
		//等效於"data(\\w)*\\.dat"  "data(\\w)?\\.dat"
		String pattern="^data(\\w)*\\.dat$";
		Pattern p=Pattern.compile(pattern);
		Matcher m1=p.matcher(file1);
		Matcher m2=p.matcher(file2);
		Matcher m3=p.matcher(file3);
		Matcher m4=p.matcher(file4);
		Matcher m5=p.matcher(file5);
		//在執行這條輸出之後,下面的不再執行,不知什麼緣故?
		//System.out.println(m1.matches());
		if(m1.find() ==true) {
			String string = file1.replaceAll(m1.group(), "m1匹配成功");
			System.out.println(string);
		}
		if(m2.find() ==true) {
			String string = file2.replaceAll(m2.group(), "m2匹配成功");
			System.out.println(string);
		}
		if(m3.find() ==true) {
			String string = file3.replaceAll(m3.group(), "m3匹配成功");
			System.out.println(string);
		}
		if(m4.find() ==true) {
			String string = file4.replaceAll(m4.group(), "m4匹配成功");
			System.out.println(string);
		}
		if(m5.find() ==true) {
			String string = file5.replaceAll(m5.group(), "m5匹配成功");
			System.out.println(string);
		}
		
		/**
		 * 測試data.*\\.dat
		 * 等價於data.+\\.dat
		 * 等價於data.{3}\\.dat
		 * 等價於data[a-z]{3}\\.dat
		 * 等價於data[a-z]{0,}\\.dat
		 */
		String pattern1="data[a-z]{0,}\\.dat";
		String file6 ="dataacd.dat";
		Pattern p1=Pattern.compile(pattern1);
		Matcher m6 =p1.matcher(file6);
		if(m6.find()==true) {
			String string = file6.replaceAll(m6.group(), "m6匹配成功");
			System.out.println(string);
		}
	}
}

小例子3:註冊匹配 

/**
 * 註冊匹配
 * @author Administrator
 *
 */
public class Registered {
	public static void main(String[] args) {
		//註冊名
		String name = "Ghd_Dxf-1314";
		String name1 = "Ghd_Dxf1314";
		//匹配正則
		String pattern="[a-zA-Z0-9_-]{5,15}";
		Pattern p=Pattern.compile(pattern);
		Matcher m=p.matcher(name);
		Matcher m1=p.matcher(name1);
		if(m.find()==true) {
			boolean string=name.matches(pattern);
			System.out.println(string);
		}
		if(m1.find()==true) {
			boolean string=name1.matches(pattern);
			System.out.println(string);
		}
	}
}

我覺得這個正則就是記住規則,然後多加練習就能熟練掌握。。。。。。。。一起學習吧