1. 程式人生 > >爬蟲提高 - 3 - 打碼平臺的使用

爬蟲提高 - 3 - 打碼平臺的使用

1 為什麼需要了解打碼平臺的使用

現在很多網站都會使用驗證碼來進行反爬,所以為了能夠更好的獲取資料,需要了解如何使用打碼平臺爬蟲中的驗證碼

2 常見的打碼平臺

  1. 雲打碼:http://www.yundama.com/

    能夠解決通用的驗證碼識別

  2. 極驗驗證碼智慧識別輔助:http://jiyandoc.c2567.com/

    能夠解決複雜驗證碼的識別

3 雲打碼的使用

下面程式碼是雲打碼平臺提供,做了個簡單修改,只用傳入response.content 即可識別圖片

程式碼內容請點選

4 常見的驗證碼的種類

4.1 url地址不變,驗證碼不變

這是驗證碼裡面非常簡單的一種型別,對應的只需要獲取驗證碼的地址,然後請求,通過打碼平臺識別即可

4.2 url地址不變,驗證碼變化

這種驗證碼的型別是更加常見的一種型別,對於這種驗證碼,大家需要思考:

在登入的過程中,假設我輸入的驗證碼是對的,對方伺服器是如何判斷當前我輸入的驗證碼是顯示在我螢幕上的驗證碼,而不是其他的驗證碼呢?

在獲取網頁的時候,請求驗證碼,以及提交驗證碼的時候,對方伺服器肯定通過了某種手段驗證我之前獲取的驗證碼和最後提交的驗證碼是同一個驗證碼,那這個手段是什麼手段呢?

很明顯,就是通過cookie來實現的,所以對應的,在請求頁面,請求驗證碼,提交驗證碼的到時候需要保證cookie的一致性,對此可以使用requests.session來解決