Python3爬蟲中識別圖形驗證碼的例項講解

阿新 • • 發佈：2020-07-31

本節我們首先來嘗試識別最簡單的一種驗證碼，圖形驗證碼，這種驗證碼出現的最早，現在也很常見，一般是四位字母或者數字組成的，例如中國知網的註冊頁面就有類似的驗證碼，連結為：http://my.cnki.net/elibregister/commonRegister.aspx，頁面：

表單的最後一項就是圖形驗證碼，我們必須完全輸入正確圖中的字元才可以完成註冊。

1.本節目標

本節我們就以知網的驗證碼為例，講解一下利用 OCR 技術識別此種圖形驗證碼的方法。

2. 準備工作

識別圖形驗證碼需要的庫有 Tesserocr，如果沒有安裝可以參考第一章的安裝說明。

3. 獲取驗證碼

為了便於實驗，我們先將驗證碼的圖片儲存到本地，以供測試。

開啟開發者工具，找到驗證碼元素，可以看到這是一張圖片，它的 src 屬性是 CheckCode.aspx，在這裡我們直接將這個連結開啟：http://my.cnki.net/elibregister/CheckCode.aspx，就可以看到一個驗證碼，直接右鍵儲存下來即可，將名稱命名為 code.jpg，如圖 8-2 所示：

這樣我們就可以得到一張驗證碼圖片供下面測試識別使用了。

4. 識別測試

接下來我們新建一個專案，將驗證碼圖片放到專案根目錄下，用 Tesserocr 庫來識別一下該驗證碼試試，程式碼如下：

importtesserocr
fromPILimportImage
image=Image.open('code.jpg')
result=tesserocr.image_to_text(image)
print(result)

在這裡我們首先新建了一個 Image 物件，然後呼叫了 Tesserocr 的 image_to_text() 方法，傳入該 Image 物件即可完成識別，實現過程非常簡單，識別結果如下：

JR42

另外 Tesserocr 還有一個更加簡單的方法直接將圖片檔案轉為字串可以達到同樣的效果，程式碼如下：

importtesserocr
print(tesserocr.file_to_text('image.png'))

不過經測試此種方法的識別效果不如上一種方法好。

5. 驗證碼處理

如上的圖片識別基本沒有難度，只是新建一個 Image 物件，然後呼叫 image_to_text() 方法即可得出圖片的識別結果。

接下來我們換一個驗證碼試一下，命名為 code2.jpg，如圖 8-3 所示：

重新用下面的程式碼測試一下：

importtesserocr
fromPILimportImage
image=Image.open('code2.jpg')
result=tesserocr.image_to_text(image)
print(result)

這時可以看到如下輸出結果：

FFKT

發現這次識別和實際的結果有所偏差，這是因為驗證碼內的多餘線條幹擾了圖片的識別。

對於這種情況，我們還需要做一下額外的處理，如轉灰度、二值化等操作。

我們可以利用 Image 物件的 convert() 方法引數傳入 L 即可將圖片轉化為灰度影象，程式碼如下：

image=image.convert('L')
image.show()

傳入 1 即可將圖片進行二值化處理：

image=image.convert('1')
image.show()

另外我們還可以指定二值化的閾值，上面的方法採用的是預設閾值127，不過我們不能用原圖直接轉化，可以先轉為灰度影象，然後再指定二值化閾值轉化，程式碼如下：

image=image.convert('L')
threshold=80
table=[]
foriinrange(256):
ifi<threshold:
table.append(0)
else:
table.append(1)
image=image.point(table,'1')
image.show()

在這裡我們指定了一個變數 threshold 代表二值化閾值，閾值設定為 80，處理之後我們看一下結果，如圖 8-4 所示：

經過處理之後我們發現原來的驗證碼中的線條已經被去除了，而且整個驗證碼變得黑白分明，這時重新識別驗證碼，程式碼如下：

importtesserocr
fromPILimportImage
image=Image.open('code2.jpg')
image=image.convert('L')
threshold=127
table=[]
foriinrange(256):
ifi<threshold:
table.append(0)
else:
table.append(1)
image=image.point(table,'1')
result=tesserocr.image_to_text(image)
print(result)

即可發現執行結果變成了：

PFRT

識別正確。

可見對於一些有干擾的圖片，我們做一些灰度和二值化處理，會提高其識別正確率。

6. 本節程式碼

本節程式碼地址為：https://github.com/Python3WebSpider/CrackImageCode。

7. 結語

本節我們瞭解了利用 Tesserocr 識別驗證碼的過程，對於簡單的圖形驗證碼我們可以直接用它來得到結果，如果要提高識別的準確度還可以對驗證碼圖片做一下預處理。

以上就是Python3爬蟲中識別圖形驗證碼的例項講解的詳細內容，更多關於Python3爬蟲識別圖形驗證碼的資料請關注我們其它相關文章！

Python3爬蟲中識別圖形驗證碼的例項講解

Python3爬蟲中識別圖形驗證碼的例項講解

mac使用python識別圖形驗證碼功能

爬蟲中手動輸入驗證碼方法無法獲取圖片src地址

在Ant Design Pro登入功能中整合圖形驗證碼元件的方法步驟

python3爬蟲GIL修改多執行緒例項講解

python爬蟲中抓取指數的例項講解

Python3爬蟲關於識別檢驗滑動驗證碼的例項

Python3爬蟲關於識別點觸點選驗證碼的例項講解

python web框架Flask實現圖形驗證碼及驗證碼的動態重新整理例項

python3爬蟲中引用Queue的例項講解

python3爬蟲中多執行緒進行解鎖操作例項

Python 圖形驗證碼識別與利用

Gin 中使用 base64Captcha 生成圖形驗證碼以及分散式架構中配置 Captcha

Gin 中使用 base64Captcha 生成圖形驗證碼分散式架構-redis方案

圖形驗證碼識別技術

java 隨機生成6位簡訊驗證碼例項程式碼

Flask專案中實現簡訊驗證碼和郵箱驗證碼功能

python3 pillow模組實現簡單驗證碼

django中的圖片驗證碼功能

python2與python3爬蟲中get與post對比解析

Python3爬蟲中識別圖形驗證碼的例項講解

相關推薦