java正則表示式分組( )分組

阿新 • • 發佈：2018-12-06

以下內容均為個人理解，方便後續複習用部落格整理起來，如果有誤，還望指正。。。。（以下均為java在eclipse中的正則表示式）

（）分組

在java正則表示式中，（）是分組的意思，依舊是所謂的捕獲組。每一個（）代表著一個group，該組是通過從左至右計算其括號來編號。

一個經典的例子：

在表示式（（A）（B（C））），有四個這樣的組：

((A)(B(C)))

(A) 可以看出，這個分組就是按照括號從左至右計算得來的

(B(C))

(C)

可以通過呼叫 matcher 物件的 groupCount 方法來查看錶達式有多少個分組。groupCount 方法返回一個 int 值，表示matcher物件當前有多個捕獲組。

還有一個特殊的組（group(0)），它總是代表整個表示式。該組不包括在 groupCount 的返回值中。

到此，我對（）分組的探究並沒有停止，在看了不少部落格之後，我發現分組還能夠通過引用來簡化表示式，而引用的方式是（\1或者$1）。

總結下來分組的作用（借鑑別人的部落格）：

1.將某些規律看成是一組，然後進行組級別的重複，可以得到意想不到的效果。

2.分組之後，可以通過後向引用簡化表示式（\1 或者$1）。

分組舉列

先來看第一個作用，對於IP地址的匹配，簡單的可以寫為如下形式（eclipse中java正則）：

String pattern = "(\\d{1,3})\\.(\\d{1,3})\\.(\\d{1,3})\\.(\\d{1,3})";

從這個我們可以看出，這裡有五個group，group(0)、group(1)、group(2)、group(3)、group(4),並且這幾個分組的正則表示式都是一樣的。我們可以對上述正則表示式進行簡化。結果如下：

String pattern = "(\\d{1,3})(\\.(\\d{1,3})){3}";

這個表示式的意思就是把IP地址xx.xx.xx.xx後面的帶顏色的.xx重複三次。

再來看第二個作用，就拿匹配<title>hello</title>標籤來說，簡單的正則可以這樣寫：

<title>.*</title>

可以看出，上邊表示式中有兩個title，完全一樣，其實可以通過分組簡寫。表示式如下：

<(title)>.*</\1>             eclipse中是<(title)>.*</\\1>

對於分組而言，整個表示式永遠算作第0組，在本例中，第0組是<(title)>.*</\\1>，然後從左到右，依次為分組編號，因此，(title)是第1組。看下面的程式碼

public class Title {
	public static void main(String[] args) {
		String title="<title>hello</title>";
		String pattern = "<(title)>.*</\\1>";
		Pattern p=Pattern.compile(pattern);
		//Pattern p=Pattern.compile(pattern1);
		Matcher m=p.matcher(title);

		if(m.find()==true) {
			boolean b=m.matches();
			System.out.println(b);
			System.out.println(m.group(0));
			System.out.println(m.group(1));
			System.out.println(m.group(2));
		}
	}
}

會在控制檯列印如下：

錯誤提示是沒有組2，因為在這個程式碼中就只有（title）這一個組。

注意：

用\1這種語法，可以引用某組的文字內容，但不能引用正則表示式。

例如剛剛的IP地址正則表示式為(\\d{1,3})(\\.(\\d{1,3})){3}，裡邊的\\.(\\d{1,3})重複了三次，如果利用後向引用簡化，表示式如下：

String pattern2 = "(\\d{1,3})(\\.\\1){3}";

經過實際測試，會發現這樣寫是錯誤的，為什麼呢？

後向引用，引用的僅僅是文字內容，而不是正則表示式！

也就是說，組中的內容一旦匹配成功，後向引用，引用的就是匹配成功後的內容，引用的是結果，而不是表示式。

因此，(\\d{1,3})(\\.\\1){3}這個表示式實際上匹配的是四個數都相同的IP地址，比如：225.225.225.225。程式碼：

public class IP {
	public static void main(String[] args) {
		String ip="225.225.225.225";
//		String pattern = "(\\d{1,3})(\\.(\\d{1,3})){3}";
//		String pattern1 = "(\\d{1,3})\\.(\\d{1,3})\\.(\\d{1,3})\\.(\\d{1,3})";

		String pattern2 = "(\\d{1,3})(\\.\\1){3}";
		Pattern p=Pattern.compile(pattern2);
		Matcher m=p.matcher(ip);
		
		if(m.find()==true) {
			boolean b=m.matches();
			System.out.println(b);
			System.out.println(m.group(0));
		}
		
	}
}

控制檯列印結果：

正則真的玄妙，一個小小的（）分組都夠研究半天了，估計是我太菜了。。。。。

注：在進一步學習後，遇到這個問題：

在使用?<=和?=時，例如：(?<=(href=\")).*(?=(\">))。

按照之前的分析，此時的group(1)是(?<=(href=\"))，group(2)應該是(href=\")，其實並不是這樣的，在正則表示式中(?<=pattern)是一個字元。正確的group(1)是(href=\")。

貼一個例子：

public class UseGhd {
	public static void main(String[] args) {
		//(?<=(href=")).{1,200}(?=(">))
		String s="<br/>您好，非常好，很開心認識你\r\n" + 
				"<br/><a target=_blank href=\"www.baidu.com\">百度一下</a>百度才知道\r\n" + 
				"<br/><a target=_blank href=\"/view/fafa.htm\">發發</ a>最佳帥哥\r\n" + 
				"<br/><a target=_blank href=\"/view/lili.htm\">麗麗</ a>最佳美女\r\n" + 
				"<br/>";
		String pattern="(?<=(href=\")).*(?=(\">))";
		Pattern p=Pattern.compile(pattern);
		//Pattern p=Pattern.compile(pattern1);
		Matcher m=p.matcher(s);
		while(m.find()) {
			//System.out.println(m);
			System.out.println(m.group(0));
			System.out.println(m.group(1));
			System.out.println(m.group(2));
		}
		String s1="dog";
		String pattern1="((.)(.(.)))";
		Pattern p1=Pattern.compile(pattern1);
		Matcher m1=p1.matcher(s1);
		while(m1.find()) {
			//System.out.println(m);
			System.out.println(m1.group(0));
			System.out.println(m1.group(1));
			System.out.println(m1.group(2));
			System.out.println(m1.group(3));
			System.out.println(m1.group(4));
		}
		
	}
}

結果：

其中道理慢慢捋一捋就能知道。。。。

Java正則表示式之分組和替換

正則表示式的子表示式（分組）不是很好懂，但卻是很強大的文字處理工具。 1 正則表示式熱身匹配電話號碼 // 電話號碼匹配 // 手機號段只有 13xxx 15xxx 18xxxx 17xxx System.out.println("18304

java正則表示式分組( )分組

以下內容均為個人理解，方便後續複習用部落格整理起來，如果有誤，還望指正。。。。（以下均為java在eclipse中的正則表示式）（）分組在java正則表示式中，（）是分組的意思，依舊是所謂的捕獲組。每一個（）代表

JAVA正則表示式高階用法(分組與捕獲)

正則表示式在字串處理中經常使用，關於正則簡單的用法相信有一點程式基礎的人都懂得一些，這裡就不介紹簡單基礎了。這裡主要講解一下在JAVA中實現了的正則的高階用法-分組與捕獲。對於要重複單個字元，非常簡單，直接在字元後賣弄加上限定符即可，例如 a+ 表示匹配1個或

java正則表示式中的分組

之前瞭解的regex中的()只是方便和？+ * |這類的符號的匹配以達到劃分範圍的目的。比如說這個："([+]|-)" 這個表示式匹配的是+或-，而不是[+後跟著]或- 如果是第二種意思得這麼寫"(\[+(])|-)" 這個例子很容易的就說明了[]中的意思和沒有括號是不同的，以及括號的意思

java正則表示式之捕獲分組與Back引用

一.捕獲分組 java正則表示式中以()括起來的內容表示一個分組，像((A)(B(C)))這個表示式中，共存在四個分組： 1.ABC 2.A 3.BC 4.C 很容易發現，分組是按照左邊的括號出現的順序來標號的這就是捕獲分組二.Back引用我們以下面這個正則表示式為例

Java正則表示式：讓分組group()代替replaceAll吧！

今天，在論壇回覆貼子時，無意中進一步學到了分組的用法。在之前幾個抓取網頁並分析獲得標題和超連結的時候，為了去除標題和超連結中多餘的字串，我都是使用 String方法中的replaceAll. 現在掌握了這個分組，完全可以在獲取所需內容時就遮蔽了多餘的字串。下面用例子說話吧

正則表示式——命名分組

語言分組記法表示式中的引用記法替換時的引用的記法 .NET (?<name>...) \k<name> ${name} PHP (?P<name&

python正則表示式匹配分組的使用

正則表示式匹配分組等其他的情況字元功能 | 匹配左右任意一個表示式 (ab) 將括號中字元作為一個分組，可以和|一起使用（ab|cd）表示匹配括號內分組中的一個 \n

正則表示式之分組捕獲、條件表示式、平衡組

其實我是想說平衡組，但我並是想寫一篇給零基礎的朋友們閱讀，我希望你是對正則有所瞭解，對平衡組不太瞭解的朋友閱讀。如果已經瞭解，看看也無妨。多一點思路。分組捕獲 - () 就是用括號把要匹配的內容擴起來命名分組捕獲 - (?<name>)或(?'

正則表示式，分組匹配示例

假設有如下幾行文字： "xxx" : {"name" : "123"} "yyy" : {"name" : "456"} "zzz" : {"name" : "789"} 如果匹配出第1條和第3條，那麼可以使用以下的正則表示式： "((xxx)|(zzz))".* 其中，最外層的括號是不能省略的，即不能

js正則表示式的分組和反向引用

javascript的正則反引用是通過RegExp.$1，RegExp.$2反向引用的。例子： var reg = /(/w+)~(/w+)/; var textt="dddd~123"; if(reg.test(textt)){ console.log(Reg

Django的路由系統|URL配置、正則表示式、分組命名、名稱空間、命名URL反向解析

1，主要內容 1. 檢視（接收請求返回響應那部分） 1. CBV(class base view)和FBV(function base view) 2. request物件 1. 之前學過的 1. request.method

正則表示式之分組(捕獲)、後向引用

分組正則表示式中的分組又稱為子表示式，就是把一個正則表示式的全部或部分當做一個整體進行處理，分成一個或多個組。其中分組是使用“（）”表示的。進行分組之後“（）”裡面的內容就會被當成一個整體來處理。先看看一個

正則表示式 GROUP 分組 C#

在一個正則表示式中，如果要提取出多個不同的部分（子表示式項），需要用到分組功能。在 C# 正則表示式中，Regex 成員關係如下，其中 Group 是其分組處理類。 Regex –> MatcheCollection (匹配項集合) –> Match (單匹配項內容)

Python 正則表示式（分組）

正則表示式分組分組就是用一對圓括號“()”括起來的正則表示式，匹配出的內容就表示一個分組。從正則表示式的左邊開始看，看到的第一個左括號“(”表示第一個分組，第二個表示第二個分組，依次類推，需要注意的是，有一個隱含的全域性分組（就是0），就是整個正則表示式。

java正則表示式學習筆記

本人在開發中使用正則表達的場景並不多，偶爾用一下，學習一波，時間久了就又忘記了，放到部落格中，說不定什麼時候就用到了。一.正則表示式的語法這個語法表來自：http://www.runoob.com/java/java-regular-expressions.html

JAVA正則表示式區分IPv4和IPv6地址

PS*程式碼直接見第二部分：一、進入正題前先說說JAVA正則表示式相關概念： 1、常用字元類： [abc] == a||b||c [a-zA-Z] == 所有大小寫字母中的任意一個 [0-9A-Za-z] == 任意

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取檔案內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思

java正則表示式去除html中所有的標籤和特殊HTML字元

關於java正則表示式去除html中所有的標籤和特殊HTML字元，結合我所做的專案總結的經驗：總共分為三種：第一種適用於適用短的文章，將文章用正則表示式的方式拼接到程式碼中，有些繁瑣，其實不太實用。第二種就是直接將文件引入，進行更改，但是有一個小缺點，就是文件中的格式可能是utf-8格式的

Java正則表示式實現港、澳、臺身份證驗證

最近由於業務的要求，需要進行港、澳、臺人員身份證驗證，現在直接上程式碼，經供參考學習，也為自己積累一些工具類： package com.qiu.validate; public class regexValidateCard { public String validateIdCard10(String id

java正則表示式分組( )分組

（ ）分組

相關推薦

（）分組