正則表示式中的分組() ----填坑
阿新 • • 發佈:2018-11-30
import re string="abcdefg acbdgef abcdgfe cadbgfe" #帶括號與不帶括號的區別 #不帶括號 regex=re.compile("((\w+)\s+\w+)") print(regex.findall(string)) #輸出:[('abcdefg acbdgef', 'abcdefg'), ('abcdgfe cadbgfe', 'abcdgfe')] regex1=re.compile("(\w+)\s+\w+") print(regex1.findall(string)) #輸出:['abcdefg', 'abcdgfe'] regex2=re.compile("\w+\s+\w+") print(regex2.findall(string)) #輸出:['abcdefg acbdgef', 'abcdgfe cadbgfe']
第一個 regex 中是帶有2個括號的,我們可以看到其輸出是一個list 中包含2個 tuple
第二個 regex 中帶有1個括號,其輸出的內容就是括號匹配到的內容,而不是整個表示式所匹配到的結果。
第三個 regex 中不帶有括號,其輸出的內容就是整個表示式所匹配到的內容。
結論:findall()返回的是括號所匹配到的結果(如regex1),多個括號就會返回多個括號分別匹配到的結果(如regex),如果沒有括號就返回就返回整條語句所匹配到的結果(如regex2)。所以在提取資料的時候就需要注意這個坑。
實際上是由其並不是python特有的,這是 正則 所特有的 , 任何一門高階語言使用正則都滿足這個特點:有括號時只能匹配到括號中的內容,沒有括號【相當於在最外層增加了一個括號】。在正則裡面 “()” 代表的是分組的意思,一個括號代表一個分組,你只能匹配到"()"中的內容