1. 程式人生 > >正則表示式中的分組() ----填坑

正則表示式中的分組() ----填坑

import re

string="abcdefg  acbdgef  abcdgfe  cadbgfe"

#帶括號與不帶括號的區別
#不帶括號
regex=re.compile("((\w+)\s+\w+)")
print(regex.findall(string))
#輸出:[('abcdefg  acbdgef', 'abcdefg'), ('abcdgfe  cadbgfe', 'abcdgfe')]

regex1=re.compile("(\w+)\s+\w+")
print(regex1.findall(string))
#輸出:['abcdefg', 'abcdgfe']

regex2=re.compile("\w+\s+\w+")
print(regex2.findall(string))
#輸出:['abcdefg  acbdgef', 'abcdgfe  cadbgfe']

 

第一個 regex 中是帶有2個括號的,我們可以看到其輸出是一個list 中包含2個 tuple 

第二個 regex 中帶有1個括號,其輸出的內容就是括號匹配到的內容,而不是整個表示式所匹配到的結果。

第三個 regex 中不帶有括號,其輸出的內容就是整個表示式所匹配到的內容。

 

結論:findall()返回的是括號所匹配到的結果(如regex1),多個括號就會返回多個括號分別匹配到的結果(如regex),如果沒有括號就返回就返回整條語句所匹配到的結果(如regex2)。所以在提取資料的時候就需要注意這個坑。

   實際上是由其並不是python特有的,這是 正則 所特有的 , 任何一門高階語言使用正則都滿足這個特點:有括號時只能匹配到括號中的內容,沒有括號【相當於在最外層增加了一個括號】。在正則裡面 “()” 代表的是分組的意思,一個括號代表一個分組,你只能匹配到"()"中的內容