1. 程式人生 > >Python爬蟲之正則表示式(1)

Python爬蟲之正則表示式(1)

廖雪峰正則表示式學習筆記

1:用\d可以匹配一個數字;用\w可以匹配一個字母或數字;

  • '00\d' 可以匹配‘007’,但是無法匹配‘00A’;
  • ‘\d\d\d’可以匹配‘010’
  • ‘\w\w\d’可以匹配‘py3’;

2:.可以匹配任意字元;

  • 'py.'可以匹配'pyc''pyo''py!'等等。

3:在正則表示式中,要匹配變長字元:

  1. *表示任意個字元(包括0個);
  2. +表示至少一個字元;
  3. 表示0個或1個字元;
  4. {n}表示n個字元;
  5. {n,m}表示n-m個字元;
  6. \s 可以匹配一個空格(也包括Tab等空白符);
  7. ‘-’是特殊字元,在正則表示式中,用‘\’
    轉義;

4:複雜例子:\d{3}\s+\d{3,8}

  • \d{3}表示匹配3個數字,例如‘010’
  • \s+表示至少一個空格,例如匹配‘ ’‘  ’等;
  • \d{3, 8}表示3-8個數字,例如‘1234567’

5:要做更精確地匹配,可以用[]表示範圍

 

  • [0-9a-zA-Z\_]可以匹配一個數字、字母或者下劃線;

  • [0-9a-zA-Z\_]+可以匹配至少由一個數字、字母或者下劃線組成的字串,比如'a100''0_Z''Py3000'等等;

  • [a-zA-Z\_][0-9a-zA-Z\_]*可以匹配由字母或下劃線開頭,後接任意個由一個數字、字母或者下劃線組成的字串,也就是Python合法的變數;

  • [a-zA-Z\_][0-9a-zA-Z\_]{0, 19}更精確地限制了變數的長度是1-20個字元(前面1個字元+後面最多19個字元)。

 

A|B可以匹配A或B,所以(P|p)ython可以匹配'Python'或者'python'

 

^表示行的開頭,^\d表示必須以數字開頭。

 

$表示行的結束,\d$表示必須以數字結束。