爬蟲筆記（二）——瀏覽器的模擬（Headers屬性）

阿新 • • 發佈：2019-02-07

有的時候，我們無法爬取一些網頁，會出現403錯誤，因為這些網頁為了防止別人惡意採集其資訊所以進行了一些反爬蟲的設定。那麼如果我們向爬取這些網頁的資訊，應該怎麼辦呢？可以設定一些Headers資訊，模擬成瀏覽器去訪問這些網站，此時，就能夠解決這個問題了。接下來我們來找找自己瀏覽器的Headers屬性。

1.首先開啟任意網頁，按下F12，並選擇網路（network）

2.任意點選網頁連線，使其發生動作。點選其中一個動作，User-Agent字樣的一串資訊。

此時我們就得到了該資訊

User-Agent:Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45.

接下來我們講如何讓爬蟲模擬成瀏覽器訪問頁面的設定方法，有以下兩種方式。

方法一：使用build_opener()修改報頭

import urllib.request

url = "https://mp.csdn.net/postedit/81051697"
headers = ("User-Agent","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()

上述程式碼中利用urllib.request.build_opener()建立一個物件並賦給opener，接下來設定opener的addheaders，即設定對應的頭資訊，設定格式為：”物件名.addheaders = [頭資訊] "，設定好後就可以利用opener物件的open方法開啟對應的連結，此時是具有頭資訊的開啟操作行為，即會模仿瀏覽器取開啟，格式為：”物件名.open(url地址)“。

方法二：使用add_header()新增報頭

import urllib.request

url = "https://mp.csdn.net/postedit/81051697"
req = urllib.request.Request (url)
req.add_header('User-Agent','Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:45.0) Gecko/20100101 Firefox/45')
data = urllib.request.urlopen(req).read()

首先使用urllib.request.Request(url)建立一個Request物件並賦予req，格式為：”urllib.request.Request(url地址)“，再利用add_header()函式給物件新增報頭，格式為：”物件名.add_header('欄位名'，'欄位值')。

爬蟲筆記（二）——瀏覽器的模擬（Headers屬性）

Android自定義View（二、深入解析自定義屬性）

爬蟲筆記（二）——瀏覽器的模擬（Headers屬性）

Gym101158G Placing Medals on a Binary Tree（二進制模擬）

筆記十二：智慧指標（二）

【論文閱讀筆記】---二值神經網路（BNN）

全國資訊學奧林匹克聯賽（NOIP2016 ）複賽模擬（二）

LeetCode 145 Binary Tree Postorder Traversal（二叉樹的興許遍歷）+（二叉樹、叠代）

表達式求值（二叉樹方法/C++語言描述）（三）

wireless（二維數組前綴和）

紅黑樹-RBT（二、基本操作之左旋）

創建二叉樹（二叉排序樹（Binary Sort Tree））

[POJ1014]Dividing（二進制優化多重背包）

servlet的介紹 & xml中配置以及 & 三種實現方式（補充設定瀏覽器不快取的方法）

DZY Loves Fibonacci Numbers CodeForces - 446C （二次剩餘+線段樹維護等比數列）

Leetcode 103 二叉樹的鋸齒形層次遍歷（二叉樹的層次遍歷）

C語言（二運算子、條件語句、指標）

從零開始之驅動發開、linux驅動（二十八、framebuffer驅動框架）

day21JavaWeb（ajax 判斷瀏覽器 ajax四步操作）

由淺入深：求給定兩個樹節點的最低公共祖先（二叉樹、普通樹結構）JAVA實現

深入理解jvm（二、常用的垃圾收集器）

爬蟲筆記（二）——瀏覽器的模擬（Headers屬性）

相關推薦