Python驗證碼通過pytesser識別
Python安裝包:
需要安裝的包主要有兩個: PIL 和 pytesser 、tesseract
(1)、安裝PIL:下載地址:http://www.pythonware.com/products/pil/
下載後是一個exe程序,直接雙擊安裝
(2)、pytesser:下載地址:http://code.google.com/p/pytesser/
pytesser 模塊的安裝:
下載後得到 “pytesser.zip”,是一個壓縮文件,使用方法:
1、在 “C:\Python27\Lib\site-packages” 路徑下新建一個文件夾,命名 “pytesser” 。把 “pytesser.zip” 裏的文件解壓到該目錄:
2、將 “pytesser.py” 改名為 “__init__.py”。
3、打開 “__init__.py” 文件,修改:tesseract_exe_name = ‘C:\\Python27\\Lib\\site-packages\\pytesser\\tesseract‘ # Name of executable to be called at command line
4、pytesser 模塊依賴於 PIL 模塊,如果是按照上面的方法安裝 PIL 的話,需要把 “init.py” 文件裏的 “import Image” 改成 “from PIL import Image” 。
下載解壓後直接放C:\Python27\Lib\site-packages,同時,新建一個pytesser.pth,內容就寫,註意這裏的內容一定要和pytesser這個文件夾同名,意思就是pytesser文件夾,pytesser.pth,及內容都要一樣!
(3)、Tesseract OCR engine下載:http://code.google.com/p/tesseract-ocr/
下載後解壓,tessdata文件夾,用其替換掉pytesser解壓後的tessdata文件夾即可。(就上面的pytesser文件夾)
代碼如下:
1 #-*- coding:utf-8 -*- 2 __author__ = "carry" 3 from PIL import Image 4 from pytesser import * 5 6 image = Image.open(‘xx.jpg‘) 7 print image_to_string(image)
Python驗證碼通過pytesser識別