Python文本爬蟲實戰
阿新 • • 發佈:2017-06-15
文本文 取出 www close each 取圖 爬蟲 edit 正則表達式
轉載請註明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html
一:流程
目標:爬取目標網頁的圖片
1:獲取網頁源碼
2:用Python讀取源碼
3:使用正則表達式從網頁源碼提取圖片地址
4:根據圖片地址下載圖片
二:實現
1:源碼獲取
文本爬蟲,是在已有的文本內容中爬取需要的信息,這區別於網絡爬蟲。
由於被檢索的內容是現成的,因此,文本爬蟲又叫“半自動爬蟲”。
在本例中,我們以昵圖網首頁為目標網址,因此,我們先到昵圖網首頁,右鍵—>查看源代碼—>保存源碼到txt文件。
2:編寫代碼
#coding:utf8 import re importrequests #1:讀取文本文件,存到一個變量中 f=open("src.txt","r+") htmls=f.read() f.close() #2:使用正則表達式,從獨取出來的文本內容中進行提取 img_url=re.findall(‘<img src="(.*?)"‘,htmls,re.S) #3:遍歷正則表達式的匹配結果,使用requests模塊功能連接圖片並通過文件寫操作把圖片保存下來 i=1; for each in img_url: #連接到圖片 img=requests.get(each) #創建圖片文件 fp=open(‘img‘+str(i)+‘.jpg‘,"wb") #把鏈接到的圖片內容寫入文件 fp.write(img.content) #關閉文件 fp.close() i=i+1
Python文本爬蟲實戰