python爬蟲之豆瓣圖片(二)
阿新 • • 發佈:2019-01-29
偽裝瀏覽器
- 對與一些需要登入的網站,如果不是從六七發出的請求,則得不到響應。所以,我們需要將爬蟲程式法出請求偽裝成瀏覽器正規軍
- 具體實現:自定義網頁請求報頭(詳細介紹)
使用Fiddle檢視請求和響應報頭
開啟下載好的工具Fiddler,然後在瀏覽器訪問“https://www.douban.com/”,在Fiddle左側訪問記錄中,找到“200 HTTP www.douban.com”這一條,點選檢視對應的請求和響應報頭的具體內容,截圖如下:
訪問豆瓣
通過自定義請求報頭與上圖的Request Headers相同內容:
import urllib.request #定義儲存檔案的函式 def saveFile(data): path="E:\\python\\douban.out" f=open(path,'wb') f.write(data) f.colse() #網址 url="https://www.douban.com/" headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.62 Safari/537.36'} req=urllib.request.Request(url=url,headers=headers) res=urllib.request.urlopen(req) data=res.read() #把爬去的內容儲存到檔案中 saveFile(data) data=data.decode('utf-8') #打印出抓取的內容 print(data) #列印各類資訊 print(type(res)) print(res.geturl()) print(res.info()) print(res.getcode())