瀏覽器的模擬——Headers屬性
阿新 • • 發佈:2019-02-10
有的時候,我們無法爬取一些網頁,會出現403錯誤,因為這些網頁為了防止別人惡意採集其資訊所以進行了一些反爬蟲的設定。
那麼可以設定Header資訊,模擬瀏覽器去訪問這些網站,此時,就能解決這個問題。新增User-Agent的兩種方法
方法一:使用build_opean()修改包頭
import urllib.request url="https://blog.csdn.net/u013109501/article/details/81981888" headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0") opener=urllib.request.build_opener() opener.addheaders=[headers] data=opener.open(url).read()
方法二:使用add_header()新增報頭
import urllib.request
url="https://blog.csdn.net/u013109501/article/details/81981888"
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/61.0')
data=urllib.request.urlopean(req).read()