python爬蟲之urlError異常處理

阿新 • • 發佈：2019-02-20

1.URLError

URLError產生的原因：

(1)網路無連線，即本機無法上網

(2)連線不到特定的伺服器

(3)伺服器不存在

import urllib.request
import urllib.error
from urllib.request import urlopen
request=urllib.request.Request('http://www.xxxxxx.com')
try:
    urllib.request.urlopen(request)
except urllib.error.URLError as e:
    print(e.reason)

D:\Anaconda3\python.exe D:/dazhongdianping/position.py
[Errno 11004] getaddrinfo failed

執行結果表明了錯誤帶還是11004，錯誤原因是getaddrinfo failed

編寫過程中產生的錯誤：首先要匯入庫檔案，其次一定要注意python2和3 的區別

1.HTTPError

HTTPError是URLError的子類，在你利用URLopen方法發出一個請求時，伺服器上都會對應一個應答物件response，其中他包含一個數字“狀態碼”，例如response是一個重定向，需定位到別的地址獲取文件，urllib將對此進行處理。

其他不能處理的，URLopen會產生一個HTTPError，對應相應的狀態碼，HTTP狀態碼錶示HTTP協議所返回的響應的狀態。狀態碼歸結如下：

100：繼續客戶端應當繼續傳送請求。客戶端應當繼續傳送請求的剩餘部分，或者如果請求已經完成，忽略這個響應。

101：轉換協議在傳送完這個響應最後的空行後，伺服器將會切換到在Upgrade 訊息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該採取類似措施。

102：繼續處理由WebDAV（RFC 2518）擴充套件的狀態碼，代表處理將被繼續執行。

200：請求成功處理方式：獲得響應的內容，進行處理

201：請求完成，結果是建立了新資源。新建立資源的URI可在響應的實體中得到處理方式：爬蟲中不會遇到

202：請求被接受，但處理尚未完成處理方式：阻塞等待

204：伺服器端已經實現了請求，但是沒有返回新的信息。如果客戶是使用者代理，則無須為此更新自身的文件檢視。處理方式：丟棄

300：該狀態碼不被HTTP/1.0的應用程式直接使用，只是作為3XX型別迴應的預設解釋。存在多個可用的被請求資源。處理方式：若程式中能夠處理，則進行進一步處理，如果程式中不能處理，則丟棄
301：請求到的資源都會分配一個永久的URL，這樣就可以在將來通過該URL來訪問此資源處理方式：重定向到分配的URL

302：請求到的資源在一個不同的URL處臨時儲存處理方式：重定向到臨時的URL

304：請求的資源未更新處理方式：丟棄

400：非法請求處理方式：丟棄

401：未授權處理方式：丟棄

403：禁止處理方式：丟棄

404：沒有找到處理方式：丟棄

500：伺服器內部錯誤伺服器遇到了一個未曾預料的狀況，導致了它無法完成對請求的處理。一般來說，這個問題都會在伺服器端的原始碼出現錯誤時出現。

501：伺服器無法識別伺服器不支援當前請求所需要的某個功能。當伺服器無法識別請求的方法，並且無法支援其對任何資源的請求。

502：錯誤閘道器作為閘道器或者代理工作的伺服器嘗試執行請求時，從上游伺服器接收到無效的響應。

503：服務出錯由於臨時的伺服器維護或者過載，伺服器當前無法處理請求。這個狀況是臨時的，並且將在一段時間以後恢復
HTTPError例項產生後會有一個code屬性，這就是伺服器傳送的相關錯誤號。因為urllib可以為你處理重定向，也就是3開頭的代號可以被處理，並且100-299範圍的號碼指示成功，所以你只能看到400-599的錯誤號碼。

下面我們寫一個例子來感受一下，捕獲的異常是HTTPError，它會帶有一個code屬性，就是錯誤代號，另外我們又列印了reason屬性，這是它的父類URLError的屬性。

import urllib.request
import urllib.error
from urllib.request import urlopen
request=urllib.request.Request('http://blog.csdn.net/cqcre')
try:
    urllib.request.urlopen(request)
except urllib.error.HTTPError as e:
    print(e.code)
    print(e.reason)

D:\Anaconda3\python.exe D:/dazhongdianping/position.py
403
Forbidden

結果分析：錯誤代號是403，錯誤原因是Forbidden，說明伺服器禁止訪問。

我們知道：HTTPError的父類是URLError，根據程式設計經驗，弗雷德異常應當寫到子類異常的後面，如果子類捕獲不到，那麼就可以捕獲父類的異常

import urllib.request
import urllib.error
from urllib.request import urlopen
request=urllib.request.Request('http://blog.csdn.net/cqcre')
try:
    urllib.request.urlopen(request)
except urllib.error.HTTPError as e:
    print(e.code)
except urllib.error.URLError as e:
    print(e.reason)
else:
    print('OK')

結果：
403

如果補貨到了HTTPError，則輸出code，不會再處理URLError異常，如果發生的不是HTTPError，則會去捕獲URLError異常，輸出錯誤原因。

另外還可以加入 hasattr屬性提前對屬性進行判斷，程式碼改寫如下：

import urllib.request
import urllib.error
from urllib.request import urlopen
request=urllib.request.Request('http://blog.csdn.net/cqcre')
try:
    urllib.request.urlopen(request)
except urllib.error.URLError as e:
    if hasattr(e,'reason'):
        print(e.reason)
else:
    print('OK')

首先對異常進行判斷，以免出現屬性輸出報錯的現象

python爬蟲之urlError異常處理

1.URLError

1.HTTPError

玩轉python爬蟲之URLError異常處理

python爬蟲之urlError異常處理

Python爬蟲入門五之URLError異常處理

Python基礎之finally異常處理

python爬蟲學習3_urlLib異常處理

Python爬蟲入門（5）：URLError異常處理

小白python爬蟲之路——對字符串的處理

Python pip install之SSL異常處理

Python 之程序異常處理

python爬蟲之處理驗證碼

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

python學習筆記7-異常處理

python爬蟲之正則表達式

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

Python開發基礎-Day23try異常處理、socket套接字基礎1

python基礎之文件處理

Python爬蟲之爬取煎蛋網妹子圖

requests庫之請求異常處理

python爬蟲之git的使用

python爬蟲之urlError異常處理

1.URLError

1.HTTPError

相關推薦