tesseract-ocr的安裝及使用pycharm來執行
阿新 • • 發佈:2020-08-04
1、可以在:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
下載一個exe檔案,然後直接按照提示安裝就行了,安裝過程中,會讓你安裝額外的語言包,可根據選擇下載。
2、安裝後配置一下環境變數
點選新建,把這個目錄,複製進去儲存就行了
增加一個TESSDATA_PREFIX變數名,變數值還是我的安裝路徑E:\pycharm\tesseract\Tesseract-OCR\tessdata這是將語言字型檔資料夾新增到變數中;
3、檢查
開啟命令終端,輸入:tesseract -v,可以看到版本資訊
可以看到就說明可以了
4、使用pycharm來認圖,程式碼
首先你要安裝pytesseract,安裝過pytesseract後PIL一般也就隨之安裝了(pycharm安裝庫很簡單,不會可以百度一下^_^)
import pytesseract from PIL import Image pytesseract.pytesseract.tesseract_cmd = r'E:\pycharm\tesseract\Tesseract-OCR\tesseract.exe' image = Image.open('b.png')
# text = pytesseract.image_to_string(image,lang='chi_sim') # 這樣就能識別中文了
text = pytesseract.image_to_string(image)
print(text)
b.png:
提示:
你如果是用截圖工具截取了一個登入時候的認證圖,可能會讓tesseract識別不了,因為好像是分別率不夠
可以百度搜索個圖片用來試試