1. 程式人生 > 實用技巧 >tesseract-ocr的安裝及使用pycharm來執行

tesseract-ocr的安裝及使用pycharm來執行

1、可以在:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載一個exe檔案,然後直接按照提示安裝就行了,安裝過程中,會讓你安裝額外的語言包,可根據選擇下載。

2、安裝後配置一下環境變數

點選新建,把這個目錄,複製進去儲存就行了

增加一個TESSDATA_PREFIX變數名,變數值還是我的安裝路徑E:\pycharm\tesseract\Tesseract-OCR\tessdata這是將語言字型檔資料夾新增到變數中;

3、檢查

開啟命令終端,輸入:tesseract -v,可以看到版本資訊

可以看到就說明可以了

4、使用pycharm來認圖,程式碼

首先你要安裝pytesseract,安裝過pytesseract後PIL一般也就隨之安裝了(pycharm安裝庫很簡單,不會可以百度一下^_^)

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:\pycharm\tesseract\Tesseract-OCR\tesseract.exe'
image = Image.open('b.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 這樣就能識別中文了
text = pytesseract.image_to_string(image) 
print(text)

b.png:

提示:

你如果是用截圖工具截取了一個登入時候的認證圖,可能會讓tesseract識別不了,因為好像是分別率不夠

可以百度搜索個圖片用來試試