1. 程式人生 > >Python文本爬蟲實戰

Python文本爬蟲實戰

文本文 取出 www close each 取圖 爬蟲 edit 正則表達式

轉載請註明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html

一:流程

目標:爬取目標網頁的圖片

1:獲取網頁源碼

2:用Python讀取源碼

3:使用正則表達式從網頁源碼提取圖片地址

4:根據圖片地址下載圖片

二:實現

1:源碼獲取

文本爬蟲,是在已有的文本內容中爬取需要的信息,這區別於網絡爬蟲。

由於被檢索的內容是現成的,因此,文本爬蟲又叫“半自動爬蟲”。

在本例中,我們以昵圖網首頁為目標網址,因此,我們先到昵圖網首頁,右鍵—>查看源代碼—>保存源碼到txt文件。

2:編寫代碼

#coding:utf8
import re
import
requests #1:讀取文本文件,存到一個變量中 f=open("src.txt","r+") htmls=f.read() f.close() #2:使用正則表達式,從獨取出來的文本內容中進行提取 img_url=re.findall(<img src="(.*?)",htmls,re.S) #3:遍歷正則表達式的匹配結果,使用requests模塊功能連接圖片並通過文件寫操作把圖片保存下來 i=1; for each in img_url: #連接到圖片 img=requests.get(each) #創建圖片文件 fp=open(img
+str(i)+.jpg,"wb") #把鏈接到的圖片內容寫入文件 fp.write(img.content) #關閉文件 fp.close() i=i+1

Python文本爬蟲實戰