網路爬蟲的正則表示式
阿新 • • 發佈:2019-01-10
0x00 re正則表示式
正則表示式:
- 通用字串表達的框架
- 簡潔表達一組字串的表示式
- 針對字串表達“簡潔”和“特徵”思想的工具
正則表示式在文字處理中的作用:
- 表達文字型別
- 同時查詢和替換一組字串
- 匹配字串的全部或部分
正則表示式常用操作符:
正則表示式語法例項:
經典的正則表示式例項:
例項:匹配IP地址的正則表示式
IP地址字串形式的正則表示式
(IP地址分四段,每段範圍0-255)
精確寫法
0-99 : [1-9]?\d 100-199: 1\d{2}
200-249:2[0-4]\d 250-255: 25[0-5]
完整表達形式:
(([1-9]?\d| 1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])
0x01 re庫的使用
re庫的主要函式功能:
re庫的另一種等價用法
re庫的match物件
match物件的屬性
match物件的方法
re庫預設使用貪婪匹配,即輸出匹配的最長字串,如
為了實現最小匹配,修改程式碼
最小匹配操作符