正則表示式入門(java,python版本)

阿新 • • 發佈：2019-02-01

注意上文加粗的‘概念’，即用英文來說，叫做concept。顯然，正則表示式是跟程式語言無關的，因此，我們可以使用任何程式語言去實現和使用它。幸運的是，絕大多數程式語言都已經實現了正則表示式，並且提供了相應的類或者API介面，我們可以在程式中直接使用它，而無需去考慮底層是如何實現的。

正則表示式可以用來做什麼

1 驗證字串是否符合指定特徵，比如驗證是否是合法的郵件地址。
2 用來查詢字串，從一個長的文字中查詢符合指定特徵的字串
3 用來替換，比普通的替換更強大
4 等等…

基本語法

一個正則表示式通常被稱為一個模式（pattern），為用來描述或者匹配一系列匹配某個句法規則的字串。
語法很簡單，就是一個“字串”。
例如： "hello Regular Expression" 這個字串:
我們可以用下面語法來篩選出來：
1"hello Regular Expression"
2 "hello*"
3 "hello.+"
4 "hello .+n"
...
這些**描述**篩選出來，這裡我們可以先不用管裡面的"*",".","+"是什麼意思，我們只需知道這個可以作為一個正則表示式的表示形式(基本語法)。

元字元

上面的".","*","+"等字元都是正則表示式中的元字元，關於元字元的講述，可以再新開一篇文章來講解，這裡提供一個正則表示式元字元含義的講解連結，**請認真瀏覽完此頁面再檢視本文章的後面的內容。**
為了避免轉載侵權和防止和諧，這裡提供百度的地址：

字元轉義：

這裡仍然有一個問題：如果我們需要匹配元字元本身，該如何處理？
那麼就需要用到字元轉義符號：'\'。
例如，如果我們需要從"test * test"匹配出 "*"這個符號，
那麼正則表示式就要寫成： "\*"，而不是"*",

值得注意的是轉義字元本身：
如果我們需要從"test \ test"匹配出 "\"這個符號，    
那麼正則表示式就要寫成： "\\\\"，而不是"\\"。

例項

上面看了這麼多，接下來我們來看看具體的應用例項吧，以加深我們的印象。
下面的例子只提供了Python和Java版本，其它語言類似，可自行參考相應語言的API文件。

匹配出網頁中的title標籤和其中的內容
python 程式碼：

#!/usr/bin/python
# coding=utf-8
import re

reg_str = """
    <!DOCTYPE html>
    <html>
    <head>
        <title>我是title</title>
    </head>
    <body>

    </body>
    </html>
"""
reg1 = u"<title>.+</title>"
reg2 = u"<title>.*</title>"
rst1 = re.search(reg1, reg_str)
rst2 = re.search(reg2, reg_str)

print rst1 and rst1.group()
print rst2 and rst2.group()

結果:

我是title
我是title
[Finished in 0.0s]

java 程式碼：

package regular_expression;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Chapter1 {
    public static void main(String []args) {
        String reg_str = "<!DOCTYPE html><html><head>   <title>我是title</title></head><body></body></html>";
        String reg1 = "<title>.+</title>";
        String reg2 = "<title>.*</title>";

        Pattern p1=Pattern.compile(reg1);
        Matcher m1=p1.matcher(reg_str);     

        Pattern p2=Pattern.compile(reg2);
        Matcher m2=p2.matcher(reg_str);     

        if (m1.find()) {
            System.out.println(m1.group());         
        }
        if (m2.find()) {
            System.out.println(m2.group());         
        }
    }
}

結果：

<title>我是title</title>
<title>我是title</title>

結果解釋：

"<title>.+</title>" 
# . 是正則表示式裡面的元字元，檢視元字元的文件可知，.表示 “匹配除換行符以外的任意字元”，因此他會匹配出
# <title>和</title>之間的任何非換行符。
# +也是正則表示式中的元字元，+表示匹配一次或者多次(即至少匹配一次，同{1,})
# 因此這個正則最終的意思就是 匹配<title>和</title>之間的任何非換行符，並且至少匹配一次

# 同理 *表示0次或多次，即匹配<title>和</title>之間的任何非換行符，並且至少匹配0次。

兩個的差別就是：
+不能匹配出 “<title></title>”字串
*可以匹配出 “<title></title>”字串
因為<title>和</title>之間一個字元也沒有，所以需要*才能匹配。

統計字串中所有詞的詞性的個數

Python程式碼：

#!/usr/bin/python
# coding=utf-8
import re

reg_str = """
    詞語1 \q
    詞語2 \w
    詞語3 \ee
    詞語1 \q
    詞語5 \w
    詞語6 \e
    詞語7 \c
"""

reg = u"\\\\[a-z]{1,2}"
rst2 = re.finditer(reg, reg_str)
# 詞性個數
count_map = {}

for m in rst2:
    value = m.group()
    if (count_map.get(value)):
        count_map[value] = count_map[value] + 1
    else:
        count_map[value] = 1

for k,v in count_map.items():
    print '詞性{}的個數為{}'.format(k,v)

結果：

詞性\c的個數為1
詞性\w的個數為2
詞性\e的個數為1
詞性\ee的個數為1
詞性\q的個數為2
[Finished in 0.0s]

java程式碼：

package regular_expression;

import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.util.HashMap;
import java.util.Map.Entry;

public class Chapter1 {
    public static void main(String []args) {
        String reg_str = "詞語1 \\q詞語2 \\w詞語3 \\ee詞語1 \\q詞語5 \\w詞語6 \\e詞語7 \\c";

        String reg ="\\\\[a-z]{1,2}";
        Pattern p=Pattern.compile(reg);
        Matcher m=p.matcher(reg_str);       
        // 詞性個數
        HashMap<String, Integer> count_map = new HashMap<String, Integer>();
        String value = "";
        while (m.find()) {
            value = m.group();
            if (count_map.get(value) != null) {
                count_map.put(value, count_map.get(value) + 1);
            } else {
                count_map.put(value,1);
            }
        }
        for (Entry<String, Integer> entry: count_map.entrySet()){
            System.out.println("詞性"+entry.getKey()+"的個數為"+ Integer.toString(entry.getValue())); 
        }       
    }
}

結果：

詞性\q的個數為2
詞性\c的個數為1
詞性\e的個數為1
詞性\w的個數為2
詞性\ee的個數為1

結果解釋：
“\\[a-z]{1,2} 表示匹配 ‘\’符號加上後面的任意1-2個英文小寫字母。
即：\字母表示詞性的話，那麼這個正則就已經把所有詞的詞性的個數都已經篩選出來。最後再經過詞性的map操作，就把所有詞性的個數計算出來了。

PS：至於為什麼是\\\\，文章前面已經提到。

參考連結：

正則表示式入門(java,python版本)

目錄本文目標正則表示式到底是什麼正則表示式可以用來做什麼基本語法元字元例項本文目標快速讓你知道真這個表示式是什麼，對正則表示式的概念有基本的瞭解，並且能夠在不同的程式語言中使

Python正則表示式入門進階

1.1 正則表示式處理字串主要有四大功能1.匹配檢視一個字串是否符合正則表示式的語法，一般返回true或者false2.獲取正則表示式來提取字串中符合要求的文字3.替換查詢字串中符合正則表示式的文字，並用相應的字串替換4.分割使用正則表示式對字串進行分割。 1.2 Python中re模組使用正則表示

Python 正則表示式入門

引子首先說正則表示式是什麼？正則表示式，又稱正規表示式、正規表示法、正規表示式、規則表示式、常規表示法（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），電腦科學的一個概念。正則表示式使用單個字串來描述、匹配一系列匹配某個句法

五年開發經驗告訴你什麼是Java正則表示式入門

一：什麼是正則表示式 1.定義：正則表示式是一種可以用於模式匹配和替換的規範，一個正則表示式就是由普通的字元（例如字元a到z）以及特殊字元（元字元）組成的文字模式，它用以描述在查詢文字主體時待匹配的一個或多個字串。正則表示式作為一個模板，將某個字元模式與所搜尋的字串進行匹配。 2

轉載 Python 正則表示式入門（中級篇）

Python 正則表示式入門（中級篇）初級篇連結：http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我們說在這一篇裡，我們會介紹子表示式，向前向後查詢，回溯引用。到這一篇開始前除了回溯引用在一些場合不可替代以外，大部分情況下的正則表示式你應該都會寫了

利用Python+正則表示式處理java函式

目標：提取java程式碼中的函式資訊（函式名、函式返回值、函式返回值型別、函式引數）思路 1、匹配函式頭（public static void name()）正常的函式頭都是以public或private或protected開頭

Java正則表示式入門

眾所周知，在程式開發中，難免會遇到需要匹配、查詢、替換、判斷字串的情況發生，而這些情況有時又比較複雜，如果用純編碼方式解決，往往會浪費程式設計師的時間及精力。因此，學習及使用正則表示式，便成了解決這一矛盾的主要手段。大家都知道，正則表示式是一種可以用於模式匹配和替換的規範，一個正則表示式就是由普

深入入門正則表示式（java）

很多正則引擎都支援命名分組，java是在java7中才引入這個特性，語法與.Net類似（.Net允許同一表示式出現名字相同的分組，java不允許）。命名分組很好理解，就是給分組進行命名。下面簡單演示一下java中如何使用以及注意事項。1.正則中定義名為NAME的分組(?<

http://www.cnblogs.com/chenmeng0818/p/6370819.html js中的正則表示式入門

http://www.cnblogs.com/chenmeng0818/p/6370819.html js中的正則表示式入門什麼是正則表示式呢？正則表示式(regular expression)描述了一種字串匹配的模式，可以用來檢查一個字串是否含有某

基礎正則表示式-入門

開發之路，羊腸九曲，荊棘密佈，幸得高人指點，前輩填坑，一路謹小慎微，終得工程圓滿；其間填坑之經驗，開路之歷程，皆為精華，不可棄之；記錄於此，以便事後回顧，亦想於有相關開發疑惑之同學做參考之用，文中如若有錯，懇請雅正，不勝感激。基本的正則表示式在使用正則表示式的時

1.正則表示式-入門

前言:今天先分享正則表示式的基礎元字元，後續會分享正則表示式的子表示式，回溯引用，前後查詢，嵌入條件，，全部分享完成之後，會嘗試著去分享一些例子與拆分介紹。如果文字描述有問題可以評論指出，如果概念很模糊，可以加我微信，我會盡量解答你的疑惑。一正則表示式的定義正則表示式，

C#正則表示式入門（下）

一、匹配郵政編碼，郵政編碼為6位數字組成。 string code; code = Console.ReadLine(); Regex reg = new Regex(@"^\d{6}$",RegexOptions.None); Console.WriteLine(reg.IsMat

C#正則表示式入門（中）

一、忽略匹配優先模式 *? 重複任意次，但儘可能少重複 +? 重複1次或更多次，但儘可能少重複 ?? 重複0次或1次，但儘可能少重複 {n,m}? 重複n到m次，但儘可能少重複 {n,}? 重複n次以上，但儘可能少重複【例二】在滿足匹配時

C#正則表示式入門（上）

一、說明使用正則表示式需要包含名字空間using System.Text.RegularExpressions; .Net使用的是傳統型NFA引擎，.NET正則表示式流派概述分類舉例字元縮略表示法

正則表示式入門到掌握

如何使用本教程最重要的是——請給我30分鐘，如果你沒有使用正則表示式的經驗，請不要試圖在30秒內入門——除非你是超人 :) 別被下面那些複雜的表示式嚇倒，只要跟著我一步一步來，你會發現正則表示式其實並沒有你想像中的那麼困難。當然，如果你看完了這篇教程之後，發現自己明白了很多，卻又幾乎什麼都記不

劍指offer：正則表示式匹配(java)

/** * 題目：（正則表示式匹配） * 請實現一個函式用來匹配包括'.'和'*'的正則表示式。 * 模式中的字元'.'表示任意一個字元，而'*'表示它前面的字元可以出現任意次（包含0次）。 * 在本題中，匹配是指字串的所有字元匹配整個模

一些我經過驗證的-有效的-【正則表示式】-JAVA

在開發中，我們經常需要對引數做驗證。需要用到一些正則表示式。這裡我整理寫我驗證過的正則表示式。一： /** * <p>shang</p> * <p>判斷email格式是否正確</p> */ p

【java 正則表示式】java正則表示式匹配圖片個數

Java 正則表示式和 Perl 的是最為相似的。 java.util.regex 包主要包括以下三個類： 1、Pattern 類： pattern 物件是一個正則表示式的編譯表示。Pattern 類沒

正則表示式入門

檢索文字檔案：Egrep 文字檢索是正則表示式最簡單的應用之一 ——許多文字編輯器和文書處理軟體都提供了正則表示式檢索功能。最簡單的就是egrep。在指定了正則表示式和需要檢索的檔案之後，egrep會嘗試用正則表示式來匹配每個檔案的每一行，並顯示能夠匹配的行。 Egrep元字元行的起始

正則表示式入門(java,python版本)

目錄

本文目標

正則表示式到底是什麼

正則表示式可以用來做什麼

基本語法

元字元

例項

參考連結：

相關推薦