正則表示式(Regular Expression)教程

阿新 • • 發佈：2019-01-05

正則表示式簡介

為什麼需要正則表示式
- 文字的複雜處理
正則表示式的優勢和用途
- 一種強大而靈活的文字處理工具；
- 大部分程式語言、資料庫、文字編輯器、開發環境都支援正則表示式
正則表示式定義：
- 正如它的名字一樣是描述了一個規則，通過這個規則可以匹配一類字串。
- 學習正則表示式很大程度上就是學習正則表示式的語法規則
開發中使用正則表示式的流程：
- 分析所要匹配的資料，寫出測試用的典型資料
- 在工具軟體中進行匹配測試
- 在程式中呼叫通過測試的正則表示式

正則表示式語法

普通字元

字母、數字、漢字、下劃線、以及沒有特殊定義的標點符號，都是“普通字元”。表示式中的普通字元，在匹配一個字串的時候，匹配與之相同的一個字元。

簡單的轉義字元

轉義字元	含義
`\n`	換行符
`\t`	製表符
`\\`	代表\本身
`\^,\$,\.,$,$,\{,\},\?,\+,\*,\|,\[,\]`	匹配這些字元本身

標準字元集合

能夠與“多種字元”匹配的表示式
注意區分大小寫，大寫是相反的意思

符號	含義
`\d`	任意一個數字，0～9中任意的一個
`\w`	任意一個字母或數字或下劃線，依舊是A~Z,a~z,0~9, _中任意一個
`\s`	包括空格、製表符、換行符和空白字元的其中任何一個
`.`	小數點可以匹配除了”\n”以外的任意一個字元，如果要匹配包括”\n”在內的所有字元，一般用[\s\S]

自定義字元集合：

[] 方括號匹配方式，能夠匹配方括號中任意一個字元

表示式	含義
`[[email protected]]`	匹配”a”或”b”或”4”或”@”
`[^abc]`	匹配”a”,”b”,”c”之外的任意一個字元
`[f-k]`	匹配”f”~”k”之間的任意一個字母
`[^A-F0-3]`	匹配”A”~”F”,”0”~”3”之外的任意一個字元

- 正則表示式的特殊符號，被包含到中括號中，則失去了特殊意義，除了^,- 之外
- 標準字元集合，除了小數點外，如果被包含於中括號，自定義字元集合將包含該集合。比如：[\d.-+]將匹配：數字、小數點、＋、－

量詞(Quantifier)

修飾匹配次數的特殊符號

表示式	含義
`{n}`	表示式重複n次
`{m,n}`	表示式至少重複m次，最多重複n次
`{m,}`	表示式至少重複m次
`?`	匹配表示式0次或者1次，相當於`{0,1}`
`+`	表示式至少出現1次，相當於`{1,}`
`*`	表示式不出現或者出現任意次，相當於`{0,}`

- 匹配次數中的貪婪模式（匹配的字元越多越好，預設！）
- 匹配次數中的非貪婪模式（匹配的字元越少越好，修飾匹配次數的特殊符號後再加上一個?號

字元邊界

（本組標記匹配的不是字元而是位置，符合某種條件的位置）

符號	含義
`^`	與字串開始的地方匹配
`$`	與字串結束的地方匹配
`\b`	匹配一個單詞邊界

- \b 匹配這樣一個位置：前面的字元和後面的字元不全是\w

選擇符和分組

表示式	作用
`\|` 分支結構	左右兩邊表示式之間“或”關係，匹配左邊或者右邊
`()` 捕獲組	（1）在被修飾匹配次數的時候，括號中的表示式可以作為整體被修飾.（2）取匹配結果的時候，括號中的表示式匹配到的內容可以背單獨的到（3）每一對括號會分配一個編號，使用（）的捕獲根據左括號的順序從1開始自動編號。捕獲元素編號為零的第一個捕獲使由整個正則表示式模式匹配的文字
`?:Expression` 非捕獲組	一些表示式中，不得不使用（），但又不需要儲存（）中的表示式匹配的內容，這是可以使用非捕獲組來抵消使用（）帶來的副作用

- 反向引用（\nnn）每一對() 都會分配一個編號，使用() 的捕獲根據左括號的順序從1開始自動編號。通過反向引用，可以對分組已捕獲的字串進行引用。

預搜尋（零寬斷言）

只進行子表示式的匹配，匹配內容不計入最終的匹配結果，是零寬度
這個位置應該符合某個條件。判斷當前位置的前後字元，是否符合制定的條件，但不匹配前後的字元。是對位置的匹配
正則表示式匹配過程中，如果子表示式匹配到的是字元內容，而非位置，並被儲存到最終的匹配結果中，那麼就認為這個子表示式是佔有字元的；如果子表示式匹配到的僅僅是位置，活著匹配的內容並不儲存到最終的匹配結果中，那麼就認為這個子表示式是零寬度的。佔有字元還是零寬度，是針對匹配的內容是否儲存到最終的匹配結果中而言的。

表示式	含義
`(?=exp)`	斷言自身出現的位置的後面能夠匹配表示式exp
`(?<=exp)`	斷言自身出現的位置的前面能夠匹配表示式exp
`(?!exp)`	斷言此位置的後面不能匹配表示式exp
`(?<!exp)`	斷言次位置的前面不能匹配表示式exp

正則表示式的匹配模式

IGNORECASE忽略大小寫模式
- 匹配時忽略大小寫
- 預設情況下，正則表示式是要區分大小寫的
SINGLELINE 單行模式
- 整個文字看作一個字串，只有一個開頭，一個結尾
- 使小數點. 可以匹配包含換行符(\n)在內的任意字元。
MULTILINE 多行模式
- 每行都是一個字串，都有開頭和結尾。
- 在指定了MULTILINE之後，如果需要僅匹配字串開始和結束位置，可以使用\A 和 \Z

常用正則表示式列表

含義	表示式
匹配中文字元	`[\u4e00-\u9fa5]`
匹配空白行	`\n\s*\r`
匹配HTML標記	`<(\S?)[^>]>.?</\1>\|<.?/>`
匹配首尾空白字元	`^\s\|\s$`
匹配Email地址	`\w+([-+.]\w+)@\w+([-.]\w+)\.\w+([-.]\w+)*`
匹配網址URL	`[a-zA-Z]+://[^\s]*`
匹配國內電話號碼	`\d{3}-\d{8}\|\d{4}-\d{7}`
匹配騰訊QQ號碼	`[1-9][0-9]{4,}`
匹配中國郵編	`[1-9]\d{5}(?!\d)`
匹配身份證號碼	`\d{15}\|\d{18}`
匹配ip地址	`\d+\.\d+\.\d+\.\d+`

在編輯器中使用正則表示式查詢

一般在各種IDE或文字編輯器都支援正則表示式的查詢（Ctrl＋F或Cmd＋F 調出查詢，勾選正則查詢）
Sublime Text
Intel IDEA

爬蟲原理程式碼

package com.coderbean.regex.test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 網路爬蟲取連結小Demo
 *
 * Created by Chang on 15/10/7.
 */
public class WebSpiderTest {
    public static void main(String[] args) {
        String destStr = getURLContent("http://www.163.com","gbk");
//        System.out.println(destStr);
//        //取到的是超連結的整個內容
//        Pattern pattern = Pattern.compile("<a[\\s\\S]+?</a>");  
        String regexStr = "href=\"(http://.+?)\"";

        List<String> list = getMatherSubstrs(destStr,regexStr);
        for(String temp:list){
            System.out.println(temp);
        }

    }
    public static List<String> getMatherSubstrs(String destStr,String regexStr){

        List<String> list = new ArrayList<String>();
        Pattern pattern = Pattern.compile(regexStr);
        Matcher matcher = pattern.matcher(destStr);

        while(matcher.find()){
            list.add(matcher.group(1));
        }
        return list;
    }
    /**
     * 獲得URL對應的網頁的內容
     * @param urlStr
     * @return
     */
    public static String getURLContent(String urlStr, String charset){
        try {
            URL url = new URL(urlStr);
            StringBuilder sb = new StringBuilder();
            BufferedReader bufferedReader = new BufferedReader(
                    new InputStreamReader(url.openStream(), Charset.forName(charset)));
            String temp = "";
            while(null!=(temp = bufferedReader.readLine())) {
                sb.append(temp);
                sb.append('\n');
            }
            return sb.toString();
        } catch (MalformedURLException e) {
            e.printStackTrace();
            return null;
        } catch (IOException e) {
            e.printStackTrace();
            return null;
        }
    }
}

正則表示式(Regular Expression)教程

正則表示式簡介為什麼需要正則表示式文字的複雜處理正則表示式的優勢和用途一種強大而靈活的文字處理工具；大部分程式語言、資料庫、文字編輯器、開發環境都支援正則表示式正則表示式定義：正如它的名字一樣是描述了一個規則，通過這個規則可以匹配一類字串

正則表示式(Regular Expression)

定義正則表示式使用單個字串來描述、匹配一系列匹配某個句法規則的字串。正則表示式(regular expression)描述了一種字串匹配的模式（pattern），可以用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。示例例一

正則表示式 Regular Expression

背景定義每次臨時用正則表示式，理解和學習的一知半解。乾脆慢慢總結一下，以後更新。其中看到的很多相關教程都標識在reference中，文中部分內容直接來自參考教程，沒有一一標註。非常感謝他們的總結。自己對正則表示式的理解就是定義一個字串的結構

淺談正則表示式(Regular Expression)

POSIX 類 perl類描述----------------------------------------------------------------------------[:alnum:] 字母和數字[:alpha:] \a 字母[:lower:] \l 小寫字母[:upper:] \u 大寫字

正則表示式Regular Expression

什麼是 RegExp？ RegExp 是正則表示式的縮寫。正則表示式（ regular expression）描述了一種字串匹配的模式。可以用來： (1)檢查一個串中是否含有符合某個規則的子串，並且可以得到這個子串； (2)根據匹配規則對字串進行靈活的替換操作

正則表示式——Regular Expression

正則表示式中分為三種東西：字元數字空格正則表示式：(java.util.regex中)處理字串，字元的匹配perl語言是運用正則表示式很好的語言留下e-mile從網頁中揪出來e-mile挨

Perl正則表示式超詳細教程

前言想必學習perl的人，對基礎正則表示式都已經熟悉，所以學習perl正則會很輕鬆。這裡我不打算解釋基礎正則的內容，而是直接介紹基礎正則中不具備的但perl支援的功能。關於基礎正則表示式的內容，可參閱基礎正則表示式。我第一個要說明的是，perl如何使用正則。還記得當初把《精通正則表示式》的書看了一遍，把p

正則表示式快速入門教程

由於評論裡有過長的URL,所以本頁排版比較混亂,推薦你到原處檢視,看完了如果有問題,再到這裡來提出.一些要說的話：如果你沒有正則表示式的基礎，請跟著教程“一步步來”。請不要大概地掃兩眼就說看不懂——以這種態度我寫成什麼樣你也看不懂。當我告訴你這是“30分鐘入門教程”時，請不要試圖在30秒內入門。事實是，我身邊

[Swift]LeetCode10. 正則表示式匹配 | Regular Expression Matching

Given an input string (s) and a pattern (p), implement regular expression matching with support for '.' and '*'. '.' Matches any single cha

C++11新特性(74)-正則表示式庫(regular-expression library)

正則表示式（regular expression）是一種描述字元序列的方法，從C++11起，C++正則表示式庫（regular-expression library）成為新標準庫的一部分。由於正則表示式本身就是一個非常龐大的系統，本文只介紹C++中使用正則表示式的小例子，淺嘗輒止。基

【LeetCode】#10正則表示式匹配(Regular Expression Matching)

【LeetCode】#10正則表示式匹配(Regular Expression Matching) 題目描述給定一個字串 (s) 和一個字元模式 §。實現支援 ‘.’ 和 ‘’ 的正則表示式匹配。 ‘.’ 匹配任意單個字元。 '’ 匹配零個或多個前面的元素。匹配應該覆蓋整個字串

leetcode-10:Regular Expression Matching正則表示式匹配

題目： Given an input string (s) and a pattern (p), implement regular expression matching with support for '.' and '*'. '.'

[LeetCode] Regular Expression Matching 正則表示式匹配

Implement regular expression matching with support for '.' and '*'. '.' Matches any single character. '*' Matches zero or more of the preceding element

第九周作業 regular expression rules 正則表示式

regular expression rules 正則表示式正則表示式是用於匹配字串中字元組合的模式。在 JavaScript中，正則表示式也是物件。這些模式被用於 RegExp 的 exec 和 test 方法, 以及

leetcode 10 Regular Expression Matching（簡單正則表示式匹配）

最近程式碼寫的少了，而leetcode一直想做一個python，c/c++解題報告的專題，c/c++一直是我非常喜歡的，c語言程式設計練習的重要性體現在linux核心程式設計以及一些大公司演算法上機的要求，python主要為了後序轉型資料分析和機器學習，所以今天

xcode regular expression 正則表示式查詢替換

應用場景 [self presentModalViewController:imgPicker animated:YES]; 在ios6已經deprecated，需要替換為其他格式 [self presentViewController:imgPicker

[LeetCode]10. Regular Expression Matching正則表示式匹配

Given an input string (s) and a pattern (p), implement regular expression matching with support for '.' and '*'.'.' Matches any single character.'*' Matche

【正則表示式判斷】Regular Expression Matching

Implement regular expression matching with support for '.' and '*'. '.' Matches any single character. '*' Matches zero or more of the p

【重點遞迴動態規劃正則表示式匹配】LeetCode 10. Regular Expression Matching

LeetCode 10. Regular Expression Matching Solution1：遞迴程式碼中的註釋寫的不是太清楚，加一點：一、當模式中的第二個字元不是“*”時： 1、如果字串第一個字元和模式中的第一個字元相匹配，那麼

Jmeter：Regular Expression Extractor正則表示式提取器上一個http請求報文內容作為下一個請求的引數

正則表示式提取器說明新增元件配置引用下面說明是參考網上的文章說明：　　（1）引用名稱：下一個請求要引用的引數名稱，如填寫title，則可用${title}引用它。　　（2）正則表示式：　　　　()：括起來的部分就是要提取的。　　

正則表示式(Regular Expression)教程

正則表示式簡介

正則表示式語法

普通字元

簡單的轉義字元

標準字元集合

自定義字元集合：

量詞(Quantifier)

字元邊界

選擇符和分組

預搜尋（零寬斷言）

正則表示式的匹配模式

常用正則表示式列表

在編輯器中使用正則表示式查詢

爬蟲原理程式碼

相關推薦