python正則表示式貪婪演算法與非貪婪演算法與正則表示式子模式的簡單應用

阿新 • • 發佈：2019-10-09

先引入一下百度百科對於正則表示式的概念:

正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。

然後我們來引入一下貪婪演算法與非貪婪演算法的一個概念:

貪婪演算法:

貪婪匹配(預設的):在整個表示式匹配成功的前提下,儘可能多的匹配
表達方式: .* .+ .? ·······

非貪婪演算法:

貪婪匹配:在整個表示式匹配成功的前提下,儘可能少的匹配
表達方式: .* ? .+? .?? ·······

當然我們通過程式碼也可以看出來

import re

html = """
<html>
    <div><p>九霄龍吟驚天變</p></div>
    <div><p>風雲際會淺水遊</p></div>
</html>
"""


#貪婪匹配
pattern = re.compile('<div><p>.*</p></div>',re.S)        #表示式為: .*    
r_list = pattern.findall(html)
print(r_list)

#非貪婪匹配
pattern = re.compile('<div><p>.*?</p></div>',re.S)       #表示式為: .*?
r_list = pattern.findall(html)
print(r_list)

我們可以通過輸出結果看出來兩者的區別

['<div><p>九霄龍吟驚天變</p></div>\n    <div><p>風雲際會淺水遊</p></div>']　　　　#將 \n換行  空格  全部匹配了下來

['<div><p>九霄龍吟驚天變</p></div>', '<div><p>風雲際會淺水遊</p></div>']         #只是將  兩個div中的內容匹配了下來

可以看出貪婪演算法會在字串中會找到第一個匹配的元素後就會一直尋找到最後一個匹配的元素即使中間有重複匹配的元素的元素

非貪婪演算法會盡可能的少匹配,即為只要滿足就會結束,從而尋找下一組匹配的元素

正則演算法子模式的應用

如上程式碼如果我想要將 九霄龍吟驚天變 風雲際會淺水遊 這兩句詩單獨提取出來就要單獨修改程式碼

pattern = re.compile('<div><p>(.*?)</p></div>',re.S)       #表示式為: (.*?)
r_list = pattern.findall(html)
print(r_list)

即為:在需要單獨提取出來的元素兩邊加上() 執行結果為:

['九霄龍吟驚天變', '風雲際會淺水遊']

下面我們可以進行一些其他的測試從而更加直觀的看到正則表示式子模式的應用

\w:單次或多次出現的字元 \s:空白字元

s = 'A B C D'
p1 = re.compile('\w+\s+\w+')
print(p1.findall(s))

結果為:

['A B','C D']

s = 'A B C D'
p1 = re.compile('(\w)+\s+\w+')
print(p1.findall(s))

結果為:

['A','C']

s = 'A B C D'
p1 = re.compile('(\w)+\s+(\w+)')
print(p1.findall(s))

結果為:

[('A','B'),('C','D')]

　　　　　　　　　　　　僅供學習! 　　2019.10.8

python正則表示式貪婪演算法與非貪婪演算法與正則表示式子模式的簡單應用

先引入一下百度百科對於正則表示式的概念: 正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。然後我們來引入一下貪婪演算法與非貪婪演

python正則表示式貪婪與非貪婪模式

之前做程式的時候看到過正則表示式的貪婪與非貪婪模式，今天用的時候就想不起來了，現在這裡總結一下，以備自己以後用到注意。 1.什麼是正則表示式的貪婪與非貪婪匹配　　如：String str="abcaxc"; 　　　　Patter p="ab.*c"; 　　貪婪匹配:正則表示式一般趨向於最大長度匹配，

正則表示式之貪婪匹配與非貪婪匹配

. :匹配除 "\n" 之外的任何單個字元。要匹配包括 '\n' 在內的任何字元，請使用像 '[.\n]' 的模式 * :匹配0個或多個使用 .* 的話就可以匹配任意長度的任意字元，但是有時候在使用 .*時就可能匹配不到物品們想要的結果，例： import re

正則表示式的貪婪模式與非貪婪模式

貪婪模式：能匹配的最大部分 s = "This is a number 234-235-22-4223" r = re.match(r"(.+)(\d+-\d+-\d+-\d+",s) r.groups() ("This is a number 23"

關於正則表示式數量詞的貪婪與非貪婪模式

在匹配正則的時候或許會遇到返回的結果多幾個字元或者少幾個字元，什麼原因呢，這個就是正則的貪婪與非貪婪模式，假設，我的匹配字元是： a = 'asdf444adfadf adfsadf' 正則表示式的貪婪模式： [a-z]{2,6} 列印結果 ['asdf',

正則表示式貪婪與非貪婪模式

之前做程式的時候看到過正則表示式的貪婪與非貪婪模式，今天用的時候就想不起來了，現在這裡總結一下，以備自己以後用到注意。 1.什麼是正則表示式的貪婪與非貪婪匹配如：String str="abcaxc"; 　　　　Patter p="ab.*c"; 　　貪婪匹配:正則表示式一般趨向於最大長度匹配，也就是所謂

正則表示式之貪婪與非貪婪模式(II)

貪婪模式正則表示式在匹配的時候會盡可能多的匹配，直至匹配失敗如： '123456789'.replace(/\d{3,7}/g,'X') 結果： "X89" 非貪婪模式讓正

[轉] 正則表示式貪婪與非貪婪模式

今天使用Notepad++時發現搜尋時需要正則匹配，到網上搜了下Notepad++中正則的用法，發現有個加+號是非貪婪匹配的東西，不太記得了，故到網上搜索，發現有用部落格一份：之前做程式的時候看到過正則表示式的貪婪與非貪婪模式，今天用的時候就想不起來了，現在這裡總結一下，以備自己以後用到注意。 1.什麼

Python3-正則表示式~貪婪模式與非貪婪模式

import re str1 = r'aa<div>test1</div>bb<div>test2</div>cc' str2 = r'aa<div>test1<div>test2</div>

正則表示式之--貪婪與非貪婪模式詳解

“.*”取得控制權後，由A後面的位置開始嘗試匹配，由於是貪婪模式，優化嘗試匹配，一直匹配到字串的結束位置，將控制權交給“"”。“"”取得控制權後，由於已經是字串的結束位置，匹配失敗，查詢可供回溯的狀態，將控制權交給“.*”，由“.*”讓出已匹配字元“.”。重複以上過程，直到後面“"”匹配了C處後面的字元“””

正則表示式的貪婪與非貪婪

var s='120000|天津市,130000|河北省,210000|遼寧省,220000|吉林省,310000|上海市,320000|江蘇省,330000|浙江省,'; var r = /310000/|(.*?)(?:,)/ r.exec(s); s.match(

正則表示式--遞迴匹配與非貪婪匹配

1. 表示式的遞迴匹配有時候，我們需要用正則表示式來分析一個計算式中的括號配對情況。比如，使用表示式 "/( [^)]* /)" 或者 "/( .*? /)" 可以匹配一對小括號。但是如果括號內還嵌有一層括號的話，如 "( ( ) )"，則這種寫法將不能夠匹配正

正則表示式貪婪模式與非貪婪模式

3.零寬斷言編輯用於查詢在某些內容(但並不包括這些內容)之前或之後的東西，也就是說它們像\b,^,$那樣用於指定一個位置，這個位置應該滿足一定的條件(即斷言)，因此它們也被稱為零寬斷言。最好還是拿例子來說明吧： (?=exp)也叫零寬度正預測先行斷言[4] ，它斷言自身出現的位置的後面能匹配表示式e

正則表示式的貪婪與非貪婪模式

[ 轉載 ] 什麽是正則表達式的貪婪與非貪婪匹配

blog 環視北京市正則表達式 clas 第一個 pat exp com http://www.cnblogs.com/xudong-bupt/p/3586889.html 1.什麽是正則表達式的貪婪與非貪婪匹配如：String str="abcaxc"; Patte

正則表達式：貪婪與非貪婪

move www emp echo 無法 rem 但是耗資源 loaded 前言在一段時間內，一直不知道.*和.*?之間的區別，一直單純的覺得兩者之間並沒有什麽區別，都是匹配任意字符，知道今天才知道其中的區別簡要介紹首先從一個簡單的問題的問題開始思考：有這樣一個字

python正則表示式的懶惰匹配和貪婪匹配

第一次碰到這個問題的時候，確實不知道該怎麼辦，後來請教了一個大神，加上自己的理解，才瞭解是什麼意思，這個東西寫python的會經常用到，而且會特別頻繁，在此寫一篇部落格，希望可以幫到一些朋友。例：一個字串 “abcdacsdnd” ①懶惰匹配 regex

正則表示式，匹配所有非中文字元

^[\u4E00-\u9FFF]+$ 控制只允許輸入中文字元： var reg = new RegExp('^[\u4E00-\u9FFF]+$'); alert(reg.test(this.userName_up)); if (!reg.test(this.userName_up)

使用正則表示式匹配中國運營商手機號的正則表示式(不含港澳臺地區)

匹配手機號碼的正則表示式：^1([358][0-9]|4[579]|66|7[0135678]|9[89])[0-9]{8}$ 目前匹配號段中國電訊號段 133、149、153、173、177、180、181、189、199 中國聯通號段 130、131、132、145、155、156

正則表示式（一）：php常用的正則匹配

function pregPN($test){ /** 匹配手機號碼規則：手機號碼基本格式：前面三位為：移動：134-139 147 150-152 157-159 182 187 188 聯通：130-132 155

python正則表示式貪婪演算法與非貪婪演算法與正則表示式子模式的簡單應用

先引入一下百度百科對於正則表示式的概念:

正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。

然後我們來引入一下貪婪演算法與非貪婪演算法的一個概念:

可以看出 貪婪演算法會在字串中會找到第一個匹配的元素後就會一直尋找到最後一個匹配的元素 即使中間有重複匹配的元素的元素

非貪婪演算法會盡可能的少匹配,即為只要滿足就會結束,從而尋找下一組匹配的元素

正則演算法子模式的應用

下面我們可以進行一些其他的測試 從而更加直觀的看到 正則表示式子模式的應用

相關推薦

可以看出貪婪演算法會在字串中會找到第一個匹配的元素後就會一直尋找到最後一個匹配的元素即使中間有重複匹配的元素的元素

下面我們可以進行一些其他的測試從而更加直觀的看到正則表示式子模式的應用