正則表示式的運用（Pattern模式和Matcher匹配)

阿新 • • 發佈：2019-02-04

構造匹配
字元字元類預定義字元類 POSIX 字元類（僅 US-ASCII） java.lang.Character 類（簡單的 java 字元型別） Unicode 塊和類別的類邊界匹配器 Greedy 數量詞 Reluctant 數量詞 Possessive 數量詞 Logical 運算子 Back 引用引用特殊構造（非捕獲）

x	字元 x
`\\`	反斜線字元
`\0`n	帶有八進位制值 `0` 的字元 n (0 `<=` n `<=` 7)
`\0`nn	帶有八進位制值 `0` 的字元 nn (0 `<=` n `<=` 7)
`\0`mnn	帶有八進位制值 `0` 的字元 mnn（0 `<=` m `<=` 3、0 `<=` n `<=` 7）
`\x`hh	帶有十六進位制值 `0x` 的字元 hh
`\u`hhhh	帶有十六進位制值 `0x` 的字元 hhhh
`\t`	製表符 (`'\u0009'`)
`\n`	新行（換行）符 (`'\u000A'`)
`\r`	回車符 (`'\u000D'`)
`\f`	換頁符 (`'\u000C'`)
`\a`	報警 (bell) 符 (`'\u0007'`)
`\e`	轉義符 (`'\u001B'`)
`\c`x	對應於 x 的控制符
`[abc]`	`a`、`b` 或 `c`（簡單類）
`[^abc]`	任何字元，除了 `a`、`b` 或 `c`（否定）
`[a-zA-Z]`	`a` 到 `z` 或 `A` 到 `Z`，兩頭的字母包括在內（範圍）
`[a-d[m-p]]`	`a` 到 `d` 或 `m` 到 `p`：`[a-dm-p]`（並集）
`[a-z&&[def]]`	`d`、`e` 或 `f`（交集）
`[a-z&&[^bc]]`	`a` 到 `z`，除了 `b` 和 `c`：`[ad-z]`（減去）
`[a-z&&[^m-p]]`	`a` 到 `z`，而非 `m` 到 `p`：`[a-lq-z]`（減去）
`.`	任何字元（與行結束符可能匹配也可能不匹配）
`\d`	數字：`[0-9]`
`\D`	非數字： `[^0-9]`
`\s`	空白字元：`[ \t\n\x0B\f\r]`
`\S`	非空白字元：`[^\s]`
`\w`	單詞字元：`[a-zA-Z_0-9]`
`\W`	非單詞字元：`[^\w]`
`\p{Lower}`	小寫字母字元：`[a-z]`
`\p{Upper}`	大寫字母字元：`[A-Z]`
`\p{ASCII}`	所有 ASCII：`[\x00-\x7F]`
`\p{Alpha}`	字母字元：`[\p{Lower}\p{Upper}]`
`\p{Digit}`	十進位制數字：`[0-9]`
`\p{Alnum}`	字母數字字元：`[\p{Alpha}\p{Digit}]`
`\p{Punct}`	標點符號：!"#$%&'()*+,-./:;<=>[email protected][\]^_`{\|}~
`\p{Graph}`	可見字元：`[\p{Alnum}\p{Punct}]`
`\p{Print}`	可列印字元：`[\p{Graph}\x20]`
`\p{Blank}`	空格或製表符：`[ \t]`
`\p{Cntrl}`	控制字元：`[\x00-\x1F\x7F]`
`\p{XDigit}`	十六進位制數字：`[0-9a-fA-F]`
`\p{Space}`	空白字元：`[ \t\n\x0B\f\r]`
`\p{javaLowerCase}`	等效於 java.lang.Character.isLowerCase()
`\p{javaUpperCase}`	等效於 java.lang.Character.isUpperCase()
`\p{javaWhitespace}`	等效於 java.lang.Character.isWhitespace()
`\p{javaMirrored}`	等效於 java.lang.Character.isMirrored()
`\p{InGreek}`	Greek 塊（簡單塊）中的字元
`\p{Lu}`	大寫字母（簡單類別）
`\p{Sc}`	貨幣符號
`\P{InGreek}`	所有字元，Greek 塊中的除外（否定）
`[\p{L}&&[^\p{Lu}]]`	所有字母，大寫字母除外（減去）
`^`	行的開頭
`$`	行的結尾
`\b`	單詞邊界
`\B`	非單詞邊界
`\A`	輸入的開頭
`\G`	上一個匹配的結尾
`\Z`	輸入的結尾，僅用於最後的結束符（如果有的話）
`\z`	輸入的結尾
X`?`	X，一次或一次也沒有
X`*`	X，零次或多次
X`+`	X，一次或多次
X`{`n`}`	X，恰好 n 次
X`{`n`,}`	X，至少 n 次
X`{`n`,`m`}`	X，至少 n 次，但是不超過 m 次
X`??`	X，一次或一次也沒有
X`*?`	X，零次或多次
X`+?`	X，一次或多次
X`{`n`}?`	X，恰好 n 次
X`{`n`,}?`	X，至少 n 次
X`{`n`,`m`}?`	X，至少 n 次，但是不超過 m 次
X`?+`	X，一次或一次也沒有
X`*+`	X，零次或多次
X`++`	X，一次或多次
X`{`n`}+`	X，恰好 n 次
X`{`n`,}+`	X，至少 n 次
X`{`n`,`m`}+`	X，至少 n 次，但是不超過 m 次
XY	X 後跟 Y
X`\|`Y	X 或 Y
`(`X`)`	X，作為捕獲組
`\`n	任何匹配的 n^th捕獲組
`\`	Nothing，但是引用以下字元
`\Q`	Nothing，但是引用所有字元，直到 `\E`
`\E`	Nothing，但是結束從 `\Q` 開始的引用
`(?:`X`)`	X，作為非捕獲組
`(?idmsux-idmsux)`	Nothing，但是將匹配標誌i d m s u x on - off
`(?idmsux-idmsux:`X`)`	X，作為帶有給定標誌 i d m s u x on - off
`(?=`X`)`	X，通過零寬度的正 lookahead
`(?!`X`)`	X，通過零寬度的負 lookahead
`(?<=`X`)`	X，通過零寬度的正 lookbehind
`(?<!`X`)`	X，通過零寬度的負 lookbehind
`(?>`X`)`	X，作為獨立的非捕獲組

反斜線、轉義和引用

反斜線字元 ('\') 用於引用轉義構造，如上表所定義的，同時還用於引用其他將被解釋為非轉義構造的字元。因此，表示式 \\ 與單個反斜線匹配，而 \{ 與左括號匹配。

在不表示轉義構造的任何字母字元前使用反斜線都是錯誤的；它們是為將來擴充套件正則表示式語言保留的。可以在非字母字元前使用反斜線，不管該字元是否非轉義構造的一部分。

根據 Java Language Specification 的要求，Java 原始碼的字串中的反斜線被解釋為 Unicode 轉義或其他字元轉義。因此必須在字串字面值中使用兩個反斜線，表示正則表示式受到保護，不被 Java 位元組碼編譯器解釋。例如，當解釋為正則表示式時，字串字面值 "\b" 與單個退格字元匹配，而 "\\b" 與單詞邊界匹配。字串字面值 "$hello$" 是非法的，將導致編譯時錯誤；要與字串 (hello) 匹配，必須使用字串字面值 "\$hello\$"。

字元類

字元類可以出現在其他字元類中，並且可以包含並集運算子（隱式）和交集運算子 (&&)。並集運算子表示至少包含其某個運算元類中所有字元的類。交集運算子表示包含同時位於其兩個運算元類中所有字元的類。

字元類運算子的優先順序如下所示，按從最高到最低的順序排列：

1 2 3 4 5
字面值轉義 \x
分組 [...]
範圍 a-z
並集 [a-e][i-u]
交集 [a-z&&[aeiou]]

注意，元字元的不同集合實際上位於字元類的內部，而非字元類的外部。例如，正則表示式 . 在字元類內部就失去了其特殊意義，而表示式 - 變成了形成元字元的範圍。

行結束符

行結束符 是一個或兩個字元的序列，標記輸入字元序列的行結尾。以下程式碼被識別為行結束符：

新行（換行）符 ('\n')、
後面緊跟新行符的回車符 ("\r\n")、
單獨的回車符 ('\r')、
下一行字元 ('\u0085')、
行分隔符 ('\u2028') 或
段落分隔符 ('\u2029)。

如果啟用 UNIX_LINES 模式，則新行符是唯一識別的行結束符。

如果未指定 DOTALL 標誌，則正則表示式 . 可以與任何字元（行結束符除外）匹配。

預設情況下，正則表示式 ^ 和 $ 忽略行結束符，僅分別與整個輸入序列的開頭和結尾匹配。如果啟用 MULTILINE 模式，則 ^ 在輸入的開頭和行結束符之後（輸入的結尾）才發生匹配。處於 MULTILINE 模式中時，$ 僅在行結束符之前或輸入序列的結尾處匹配。

組和捕獲

捕獲組可以通過從左到右計算其開括號來編號。例如，在表示式 ((A)(B(C))) 中，存在四個這樣的組：

1 2 3 4
((A)(B(C)))
\A
(B(C))
(C)

組零始終代表整個表示式。

之所以這樣命名捕獲組是因為在匹配中，儲存了與這些組匹配的輸入序列的每個子序列。捕獲的子序列稍後可以通過 Back 引用在表示式中使用，也可以在匹配操作完成後從匹配器獲取。

與組關聯的捕獲輸入始終是與組最近匹配的子序列。如果由於量化的緣故再次計算了組，則在第二次計算失敗時將保留其以前捕獲的值（如果有的話）例如，將字串 "aba" 與表示式 (a(b)?)+ 相匹配，會將第二組設定為 "b"。在每個匹配的開頭，所有捕獲的輸入都會被丟棄。

以 (?) 開頭的組是純的非捕獲 組，它不捕獲文字，也不針對組合計進行計數。

Unicode 支援

Java 原始碼中的 Unicode 轉義序列（如 \u2014）是按照 Java Language Specification 的第 3.3 節中的描述處理的。這樣的轉義序列還可以由正則表示式解析器直接實現，以便在從檔案或鍵盤擊鍵讀取的表示式中使用 Unicode 轉義。因此，可以將不相等的字串 "\u2014" 和 "\\u2014" 編譯為相同的模式，從而與帶有十六進位制值 0x2014 的字元匹配。

與 Perl 中一樣，Unicode 塊和類別是使用 \p 和 \P 構造編寫的。如果輸入具有屬性 prop，則與 \p{prop} 匹配，而輸入具有該屬性時與 \P{prop} 不匹配。塊使用字首 In 指定，與在 InMongolian 中一樣。可以使用可選字首 Is 指定類別：\p{L} 和 \p{IsL} 都表示 Unicode 字母的類別。塊和類別在字元類的內部和外部都可以使用。

受支援的類別是由 Character 類指定版本中的 The Unicode Standard 的類別。類別名稱是在 Standard 中定義的，即標準又豐富。Pattern 所支援的塊名稱是 UnicodeBlock.forName 所接受和定義的有效塊名稱。

行為類似 java.lang.Character boolean 是 methodname 方法（廢棄的類別除外）的類別，可以通過相同的 \p{prop} 語法來提供，其中指定的屬性具有名稱 javamethodname。

與 Perl 5 相比較

Pattern 引擎用有序替換項執行傳統上基於 NFA 的匹配，與 Perl 5 中進行的相同。

此類不支援 Perl 構造：

條件構造 (?{X}) 和 (?(condition)X|Y)、
嵌入式程式碼構造 (?{code}) 和 (??{code})、
嵌入式註釋語法 (?#comment) 和
預處理操作 \l \u、\L 和 \U。

此類支援但 Perl 不支援的構造：

Possessive 數量詞，它可以儘可能多地進行匹配，即使這樣做導致所有匹配都成功時也如此。

字元類並集和交集，如上文所述。

與 Perl 的顯著不同點是：

在 Perl 中，\1 到 \9 始終被解釋為 Back 引用；如果至少存在多個子表示式，則大於 9 的反斜線轉義數按 Back 引用對待，否則在可能的情況下，它將被解釋為八進位制轉義。在此類中，八進位制轉義必須始終以零開頭。在此類中，\1 到 \9 始終被解釋為 Back 引用，較大的數被接受為 Back 引用，如果在正則表示式中至少存在多個子表示式的話；否則，解析器將刪除數字，直到該數小於等於組的現有數或者其為一個數字。
Perl 使用 g 標誌請求恢復最後匹配丟失的匹配。此功能是由 Matcher 類顯式提供的：重複執行 find 方法呼叫可以恢復丟失的最後匹配，除非匹配器被重置。
在 Perl 中，位於表示式頂級的嵌入式標記對整個表示式都有影響。在此類中，嵌入式標誌始終在它們出現的時候才起作用，不管它們位於頂級還是組中；在後一種情況下，與在 Perl 中類似，標誌在組的結尾處還原。
Perl 允許錯誤匹配構造，如在表示式 *a 中，以及不匹配的括號，如在在表示式 abc] 中，並將其作為字面值對待。此類還接受不匹配的括號，但對 +、? 和 * 不匹配元字元有嚴格限制；如果遇到它們，則丟擲 PatternSyntaxException。

有關正則表示式構造行為更準確的描述，請參見 Mastering Regular Expressions, 2nd Edition，該書由 Jeffrey E. F. Friedl、O'Reilly 和 Associates 合著，於 2002 年出版。

from: http://josh-persistence.iteye.com/blog/1881270

正則表示式的運用（Pattern模式和Matcher匹配)

反斜線、轉義和引用

字元類

行結束符

組和捕獲

Unicode 支援

與 Perl 5 相比較

正則表示式的運用（Pattern模式和Matcher匹配)

正則表示式中的貪婪模式和懶惰模式

Python正則表示式中的貪心模式和非貪心模式

Java中正則表示式相關類Pattern和Matcher的使用

JAVA 正則表示式的三種模式: 貪婪, 勉強和佔有的討論

C#正則表示式程式設計（三）：Match類和Group類用法

Python正則表示式初識（九）

正則表示式－－ (?:pattern)與(?=pattern)的區別

RE正則表示式總結（一）

js正則表示式替換（web作業）

python html抓取，並用re正則表示式解析（一）

python html抓取，並用re正則表示式解析（二）

正則表示式全集（記錄用）

C#正則表示式入門（下）

C#正則表示式入門（中）

C#正則表示式入門（上）

用正則表示式表示IP，埠和子網掩碼

Python正則表示式初識（一）

Python正則表示式初識（二）

Python正則表示式初識（四）

字面值轉義	`\x`
分組	`[...]`
範圍	`a-z`
並集	`[a-e][i-u]`
交集	`[a-z&&[aeiou]]`

正則表示式的運用（Pattern模式和Matcher匹配)

反斜線、轉義和引用

字元類

行結束符

組和捕獲

Unicode 支援

與 Perl 5 相比較

相關推薦