【技術】python+PIL+pytesser處理驗證碼環境搭建

阿新 • • 發佈：2019-01-01

=======================================

【提示】本文中pyteser適用於python2.X。如果用的是pyhon3.X，需要下載pytesser3.

第一個坑: pytesser3需要搭配tesseract-ocr使用，和下文操作不同。

第二個坑: pytesser3安裝後居然需要你手動更改一個地址：__init__.py檔案第11行的tesseract地址。

第三個坑：我在傳送門下載tesseract-ocr，以為能使用。但是執行程式時候報錯：[WinError 5] 拒絕訪問。

我不知道哪裡的問題，想來想去可能是windows問題，於是下載了windows版本的tesseract（用exe安裝）：

傳送門。依然報錯：[WinError 5] 拒絕訪問。

綜上，本問題本人沒解決。能不用windows就別用windows。

=======================================

前言：

春節期間，無法全身心投入地去寫爬蟲，那就玩玩驗證碼吧，應該比較有趣！

首次接觸驗證碼識別，用pytesser接觸一下最簡單的驗證碼先，程式碼參照：使用python以及工具包進行簡單的驗證碼識別。具體細節可以參見原文，裡面安裝和報錯處理沒有詳細記錄，我在此處主要記錄一下自己的安裝及處理過程。

效果：

可識別以下型別的驗證碼：
這裡寫圖片描述

正文：

程式碼：

# encoding=utf-8
from PIL import Image
from pytesser import *

img = Image.open('驗證碼.jpg')
img_grey = img.convert('L')

threshold = 140
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
img_out = img_grey.point(table, '1')

text = image_to_string(img_grey)  # 將圖片轉成字串
print text

安裝包：

需要安裝的包主要有兩個： PIL 和 pytesser 。
我的環境：64位win8系統、python2.7

PIL模組的安裝：

PIL 全稱 “Python Imaging Library”。
下載地址：傳送門

我下載了這裡寫圖片描述

執行報錯：Python version 2.7 required, which was not found in the registry.

網上找出原因：這個 PIL 安裝資源是給32位作業系統，32位和64位作業系統下的python在登錄檔中的路徑是不一樣的：
64位檢查登錄檔的位置是： HKLM|HKCU\SOFTWARE\
32位檢查登錄檔的位置是： HKLM|HKCU\SOFTWARE\wow6432node\
所以在64位系統中自然檢查不出有Python。

解決方案：
官方沒有提供64位的PIL庫，但非官方有：傳送門。
下載裡面的pillow庫：
64位PIL
然後在命令列安裝該模組：
pip install G:/For_Life/360download/Pillow-3.1.1-cp27-none-win_amd64.whl

注意：在 pillow 下載頁中有一行 “Use ‘from PIL import Image’ instead of ‘import Image’” ，所以一般方法安裝的 PIL 要匯入 Image 模組使用 “import Image” ，而此方法安裝的 PIL 要使用 “from PIL import Image” 。
更多請見：Windows安裝Python影象處理庫：PIL模組。

pytesser模組的安裝：

下載地址：傳送門。（此網址有時候會載入失敗，我將自己下載的放在微盤上了：傳送門密碼：DPHE）

下載後得到 “pytesser_v0.0.1.zip”，是一個壓縮檔案，使用方法：
1、在 “D:\For_Software\others\Python_PyDev\Python\Lib\site-packages” 路徑下新建一個資料夾，命名 “pytesser” 。把 “pytesser_v0.0.1.zip” 裡的檔案解壓到該目錄：
pytesser模組的安裝

2、將 “pytesser.py” 改名為 “__init__.py”。

3、開啟 “__init__.py” 檔案，將 “tesseract_exe_name” 變數的值改為 “‘D:/For_Software/others/Python_PyDev/Python/Lib/site-packages/pytesser /tesseract’”(原值為 “‘tesseract’”)。

4、pytesser 模組依賴於 PIL 模組，如果是按照上面的方法安裝 PIL 的話，需要把 “init.py” 檔案裡的 “import Image” 改成 “from PIL import Image” 。
（注意以上的路徑要改成自己的路徑，不要原搬照抄，應該不會這麼笨吧）

如果報錯：WindowsError: [Error 2]
pytesser WindowsError:[Error 2]
可能的原因：python找不到 “tesseract.exe”，執行步驟3給python指定一個絕對路徑就可以了。

如果報錯：ImportError: No module named Image
pytesser ImportError: No module named Image
可能的原因：在 pytesser 中的 “__init__.py” ，匯入 Image 的方式不對，見步驟4。

總結：

其實這只是處理最簡單的驗證碼而已，程式碼也很簡單，主要做兩個工作而已。第一個是將彩色圖片轉成灰度圖片併除噪，第二個是使用 pytesser.image_to_string() 將圖片中的字元提取出來。

處理的圖片也是非常有限的圖片上的數字或字母必須沒有變形（即使是沒有變形的情況下還會出現數字跟字母混淆的情況），驗證碼的背景不能太複雜，允許字型加上一些顏色。
這麼簡單的驗證碼估計很少見，不常用。所以這麼簡單的處理方法，我們看一看也就可以了，如果實際使用的話技術還有待深入。

【技術】python+PIL+pytesser處理驗證碼環境搭建

前言：

效果：

正文：

程式碼：

安裝包：

PIL模組的安裝：

pytesser模組的安裝：

總結：

【技術】python+PIL+pytesser處理驗證碼環境搭建

【問題】python利用cookie繞過驗證碼登入，是否能直接繞過驗證碼？

【jmeter】通過Cookie跳過驗證碼登入介面

python爬蟲之處理驗證碼

【AI】MXNet(CPU+GPU) Windows10系統開發環境搭建

【java】xml檔案表建立及讀取環境搭建並採用DOM4J完成XML檔案匯入到資料庫

【原創】Python 對象創建過程中元類, new, call, init 的處理

Python自動化開發課堂筆記【Day03】 - Python基礎(字符編碼使用，文件處理，函數)

【轉】Python處理wave文件

【原創】python學習筆記（10）--《笨辦法學python》字串處理

python—【爬蟲】學習_3(異常處理）

【轉載】@Python 程式設計師，如何實現狂拽酷炫的 3D 程式設計技術？

【Django】Python 實現登入驗證碼

【PIL+numpy+pytesseract】識別汽車之家驗證碼

【原創】Python處理海量資料的實戰研究

【轉】Python之mmap記憶體對映模組（大文字處理）說明 mmap函式介紹

【NLP】Python NLTK處理原始文字

Python處理驗證碼第一篇（pytesser初探及報錯處理）

【轉】Python技術部落格——老王python

【Python】【Shell】【Caffe】訓練集預處理 —— 資料增強《很認真的講講Caffe》

【技術】python+PIL+pytesser處理驗證碼環境搭建

前言：

效果：

正文：

程式碼：

安裝包：

PIL模組的安裝：

pytesser模組的安裝：

總結：

相關推薦