1. 程式人生 > 程式設計 >淺析Python 多行匹配模式

淺析Python 多行匹配模式

問題

你正在試著使用正則表示式去匹配一大塊的文字,而你需要跨越多行去匹配。

解決方案

這個問題很典型的出現在當你用點(.)去匹配任意字元的時候,忘記了點(.)不能匹配換行符的事實。比如,假設你想試著去匹配C語言分割的註釋:

>>> comment = re.compile(r'/\*(.*?)\*/')
>>> text1 = '/* this is a comment */'
>>> text2 = '''/* this is a
... multiline comment */
... '''
>>>
>>> comment.findall(text1)
[' this is a comment ']
>>> comment.findall(text2)
[]
>>>

為了修正這個問題,你可以修改模式字串,增加對換行的支援。比如:

>>> comment = re.compile(r'/\*((?:.|\n)*?)\*/')
>>> comment.findall(text2)
[' this is a\n multiline comment ']
>>>

在這個模式中,(?:.|\n) 指定了一個非捕獲組(也就是它定義了一個僅僅用來做匹配,而不能通過單獨捕獲或者編號的組)。

討論

re.compile() 函式接受一個標誌引數叫 re.DOTALL ,在這裡非常有用。它可以讓正則表示式中的.匹配包括換行符在內的任意字元。比如:

>>> comment = re.compile(r'/\*(.*?)\*/',re.DOTALL)
>>> comment.findall(text2)
[' this is a\n multiline comment ']

對於簡單的情況使用 re.DOTALL 標記引數工作的很好,但是如果模式非常複雜或者是為了構造字串令牌而將多個模式合併起來(2.18節有詳細描述),這時候使用這個標記引數就可能出現一些問題。如果讓你選擇的話,最好還是定義自己的正則表示式模式,這樣它可以在不需要額外的標記引數下也能工作的很好。

以上就是淺析Python 多行匹配模式的詳細內容,更多關於Python 多行匹配模式的資料請關注我們其它相關文章!