Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

阿新 • • 發佈：2019-01-20

現在隨處可見 https 開頭的網站，urllib2可以為 HTTPS 請求驗證SSL證書，就像web瀏覽器一樣，如果網站的SSL證書是經過CA認證的，則能夠正常訪問，如：https://www.baidu.com/等...

如果SSL證書驗證不通過，或者作業系統不信任伺服器的安全證書，比如瀏覽器在訪問12306網站如：https://www.12306.cn/mormhweb/的時候，會警告使用者證書不受信任。（據說 12306 網站證書是自己做的，沒有通過CA認證）

urllib2在訪問的時候則會報出SSLError：

import urllib2

url = "https://www.12306.cn/mormhweb/" 


headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

request = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(request)

print response.read()

執行結果：

urllib2.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:590)>

所以，如果以後遇到這種網站，我們需要單獨處理SSL證書，讓程式忽略SSL證書驗證錯誤，即可正常訪問。

import urllib
import urllib2
# 1. 匯入Python SSL處理模組
import ssl

# 2. 表示忽略未經核實的SSL證書認證
context = ssl._create_unverified_context()

url = "https://www.12306.cn/mormhweb/"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36" 
}

request = urllib2.Request(url, headers = headers)

# 3. 在urlopen()方法裡 指明新增 context 引數
response = urllib2.urlopen(request, context = context)

print response.read()

關於CA

CA(Certificate Authority)是數字證書認證中心的簡稱，是指發放、管理、廢除數字證書的受信任的第三方機構，如北京數字認證股份有限公司、上海市數字證書認證中心有限公司等...

CA的作用是檢查證書持有者身份的合法性，並簽發證書，以防證書被偽造或篡改，以及對證書和金鑰進行管理。

現實生活中可以用身份證來證明身份，那麼在網路世界裡，數字證書就是身份證。和現實生活不同的是，並不是每個上網的使用者都有數字證書的，往往只有當一個人需要證明自己的身份的時候才需要用到數字證書。

普通使用者一般是不需要，因為網站並不關心是誰訪問了網站，現在的網站只關心流量。但是反過來，網站就需要證明自己的身份了。

比如說現在釣魚網站很多的，比如你想訪問的是www.baidu.com，但其實你訪問的是www.daibu.com”，所以在提交自己的隱私資訊之前需要驗證一下網站的身份，要求網站出示數字證書。

一般正常的網站都會主動出示自己的數字證書，來確保客戶端和網站伺服器之間的通訊資料是加密安全的。

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

關於CA

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

處理HTTPS請求 SSL證書驗證

網路爬蟲筆記（Day6）——妹子圖

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

網路爬蟲筆記（Day5）——鏈家

網路爬蟲筆記（Day4）

網路爬蟲筆記（Day3）

網路爬蟲筆記（Day8）——IP代理

網路爬蟲筆記（Day8）——BeautifulSoup

網路爬蟲筆記（Day7）——Selenium

Python 網路爬蟲學習（一）

用Python寫網路爬蟲系列（三）表單處理

python網絡爬蟲筆記（四）

python網絡爬蟲筆記（九）

Python網絡爬蟲筆記（五）：下載、分析京東P20銷售數據

python | 爬蟲筆記（五）- 數據存儲

python | 爬蟲筆記 - （八）Scrapy入門教程

Python網路資料爬取----網路爬蟲基礎（一）

影象處理基本概念筆記（7）

Python時間序列LSTM預測系列學習筆記（7）-多變數

Python網路爬蟲筆記（7）處理HTTPS請求 SSL證書驗證

關於CA

相關推薦