正則表示式與貪婪規則
正則表示式有最長匹配的特性,也就是貪婪規則。
正則表示式是具有貪婪性的,我們從下面這例談起:
已知str="uid=100(guest) gid=100(others) groups=10(users),11(floppy)"
現在想要得到這個字串中的第一個括號內的值,即guest該怎麼辦?假設$str的括號外的內容是不固定的,不能依據uid之類的關鍵字或空格去查詢,所依據的只能是找第一對括號內的內容。
很自然的我們想到用sed,因為sed具有很強的模式匹配的功能,而且能夠將匹配的部分內容強行記下來用於輸出。這樣,我們就會想:
echo $str|sed 's/模式串/1/'
只要模式串寫好了,在匹配的過程中把guest這個字串摳出來,讓sed記住,然後用1輸出就可以了。怎麼寫這個模式串?
.*想要匹配"uid=100"
(...)告訴sed要查詢括弧內的文字
(.*)讓sed記住匹配內容的常用手段,這裡匹配的.*將來就能用1取出來
.*想要匹配" gid=100(others) groups=10(users),11(floppy)"部分
於是我們就寫成了echo $str|sed 's/.*\(.*\).*/1/'
結果呢,得到的是"floppy",為什麼?
正則表示式是有貪婪性的,它總是與最長的可能長度匹配,而且越是排在前面的萬用字元優先順序越高。這一例,第一個.*可以匹配"uid=100(guest) gid=100(others) groups=10(users),11",仍然能保證後面萬用字元的匹配,那一對()匹配了floppy左右的括號,最後的.*自然是可有可無的,所以sed記住的就是floppy。
怎麼辦?我們必須打破正則表示式的貪吃性,用更明確的描述來實現這一點:
我們考慮如果在模式串中第一個.*中告訴sed這個.*是不能含有"("的,不久可以將.*限制到"uid=100"了嗎?這個意思我們完全可以用[^(]*來表達,於是我們修訂剛才的程式碼,變成:
echo $str|sed 's/[^(]*\(.*\).*/1/'
似乎應該很好了,執行的結果卻是"guest) gid=100(others) groups=10(users),11(floppy",為什麼?
原來仍然是正則表達是的貪婪性在作怪,雖然我們有效的阻止了第一個.*的貪吃,但是我們對(.*)中的.*卻未加限制,於是它儘可能匹配了"guest) gid=100(others) groups=10(users),11(floppy",還能保證後面").*"的匹配性。我們再作限制,告訴sed,(.*)中的.*不能含有")",讓它跨不過guest:
echo $str|sed 's/[^(]*\([^)]*\).*/1/'
這回,輸出結果終於是我們想要得"guest"了。
問題解決了,我們也瞭解了正則表示式(或說萬用字元)的貪婪性,於是就可以留個問題給大家,讓大家自己體會體會:
怎麼樣取出str中第二對括號的內容"others"?
怎麼樣取出str中第三對括號的內容"users"?
怎麼樣取出str中第四對括號的內容"floppy"?(這個還用說嗎,就利用正則表示式的貪婪性,我們最開始不就實現它了嘛)
又見michaelds的佳作。
俺來做作業。
str="uid=100(guest) gid=100(others) groups=10(users),11(floppy)"
echo $str|sed 's/[^(]*\([^)]*\)[^(]*\([^)]*\)[^(]*\([^)]*\)[^(]*\([^)]*\
)/2/'