1. 程式人生 > >python知識點總結(三)

python知識點總結(三)

python知識點總結(三)

本文主要總結以下python知識點(共三篇文章,這是第三篇)

  • 正則表示式
  • python之簡單爬蟲

 

python正則表示式

首先談一下自己對正則表示式的理解,正則表示式是非常強大的,幾乎能解決任何字元匹配問題,把你想找的東西表達成一個正則表示式,之後就能返回所以匹配的內容。字串也有endwith、startwith等方法,不過功能太過簡單,想學爬蟲第一課必須是先學會正則表示式,其實不要把正則表示式看的太難,其實非常容易,把你想找的轉換為計算機能聽懂的語言,讓計算機幫你找。

正則匹配模式

^	匹配字串的開頭
$	匹配字串的末尾。
.	匹配任意字元,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字元。
[...]	用來表示一組字元,單獨列出:[amk] 匹配 'a','m'或'k'
[^...]	不在[]中的字元:[^abc] 匹配除了a,b,c之外的字元。
re*	匹配0個或多個的表示式。
re+	匹配1個或多個的表示式。
re?	匹配0個或1個由前面的正則表示式定義的片段,非貪婪方式
re{ n}	
re{ n,}	精確匹配n個前面表示式。
re{ n, m}	匹配 n 到 m 次由前面的正則表示式定義的片段,貪婪方式
a| b	匹配a或b
(re)	G匹配括號內的表示式,也表示一個組
(?imx)	正則表示式包含三種可選標誌:i, m, 或 x 。隻影響括號中的區域。
(?-imx)	正則表示式關閉 i, m, 或 x 可選標誌。隻影響括號中的區域。
(?: re)	類似 (...), 但是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標誌
(?-imx: re)	在括號中不使用i, m, 或 x 可選標誌
(?#...)	註釋.
(?= re)	前向肯定界定符。如果所含正則表示式,以 ... 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表示式已經嘗試,匹配引擎根本沒有提高;模式的剩餘部分還要嘗試界定符的右邊。
(?! re)	前向否定界定符。與肯定界定符相反;當所含表示式不能在字串當前位置匹配時成功
(?> re)	匹配的獨立模式,省去回溯。
\w	匹配字母數字及下劃線
\W	匹配非字母數字及下劃線
\s	匹配任意空白字元,等價於 [\t\n\r\f].
\S	匹配任意非空字元
\d	匹配任意數字,等價於 [0-9].
\D	匹配任意非數字
\A	匹配字串開始
\Z	匹配字串結束,如果是存在換行,只匹配到換行前的結束字串。
\z	匹配字串結束
\G	匹配最後匹配完成的位置。
\b	匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B	匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一個換行符。匹配一個製表符。等
\1...\9	匹配第n個分組的子表示式。
\10	匹配第n個分組的子表示式,如果它經匹配。否則指的是八進位制字元碼的表示式。

處理函式

方法/屬性 作用
match() 決定 RE 是否在字串剛開始的位置匹配
search() 掃描字串,找到這個 RE 匹配的位置
findall() 找到 RE 匹配的所有子串,並把它們作為一個列表返回
finditer() 找到 RE 匹配的所有子串,並把它們作為一個迭代器返回

match() 函式只檢查 RE 是否在字串開始處匹配,而 search() 則是掃描整個字串。

match() 只報告一次成功的匹配,它將從 0 處開始;如果匹配不是從 0 開始的,match() 將不會報告它。

search() 將掃描整個字串,並報告它找到的第一個匹配。

match()、seerch()、finditer()如果匹配成功則返回一個Match Object物件,該物件有以下屬性、方法:

方法/屬性 作用
group() 返回被 RE 匹配的字串
start() 返回匹配開始的位置
end() 返回匹配結束的位置
span() 返回一個元組包含匹配 (開始,結束) 的位置

 正則可選標記

正則例項

 

貪婪模式:ab*查abbbbc得到abbbb

非貪婪模式:ab*?abbbbc得到ab
.*?表示使用非貪婪模式

python之簡單爬蟲

會用到網路包urllib2,下面簡單寫一個爬蟲,爬去網頁圖片(正則表示式寫的不是很精確,這裡只是舉一個例子,讀者可修改成更精確的表示式),還可以下載到本地

# -*- encoding=utf-8 -*-
import urllib2
import re

#開啟url地址上的資源
resp = urllib2.urlopen("https://www.baidu.com")
#讀取資源內容,作為bytes讀取
mybytes = resp.read()
#解碼bytes成為string
mystr = mybytes.decode("utf8")
#關閉資源
resp.close()
#下載
# f = open("f:/bigdata/blog.html",'wb')
# f.write(mybytes);
# f.close()

#這個正則表示式不標準,大家可以替換
listurl =re.findall(r'http:.+\.png',mybytes)
print listurl

i=0
for url in listurl:
    f = open(str(i)+'.jpg','w')
    req = urllib2.urlopen(url)
    buf = req.read()
    #f.write(buf)
    i+=1
    print ("over")