python使用tesseract識別驗證碼
阿新 • • 發佈:2018-11-07
寫在最前面:
遇到了一個很無語的坑。
環境變數新增好以後,記得重啟IDE--pycharm,不然死活會報錯!!!
本來想用於我司運維平臺的驗證碼識別的,結果截下來的圖太模糊了,強大的tesseract也無能為力。。。
程式碼很簡單,下面是安裝步驟,具體的我的前面的部落格有介紹
第一步:
用homebrew 在電腦上安裝tesseract庫 brew install tesseract
https://blog.csdn.net/ssjdoudou/article/details/83794522
第二步:
用pip安裝支援python的tesseract 介面pip install pytesseract
第三步:
https://github.com/tesseract-ocr/tessdata下載中文資料集chi_sim.traineddat
然後做個簡單的demo展示:
import pytesseract
import PIL
from PIL import Image
image = Image.open('codenew.jpg')
code = pytesseract.image_to_string(image,lang='chi_sim')
print(code)
7 36 4 Process finished with exit code 0