用python識別圖片中的文字,批量識別還有待研究
阿新 • • 發佈:2020-10-14
# incoding=gbk import os import pytesseract from PIL import Image # 讀取圖片 im = Image.open(r'C:\Users\Administrator\Desktop\sentence.jpg') im_2 = Image.open(r'C:\Users\Administrator\Desktop\sentence.png') # 識別文字 string = pytesseract.image_to_string(im) print(string) string_2 = pytesseract.image_to_string(im_2, lang='chi_sim') print(string_2) """ Tesseract的安裝及配置 1. https://digi.bib.uni-mannheim.de/tesseract/ 選擇合適的版本下載 2. 將安裝目錄配置到系統path變數當中,右擊我的電腦->屬性->高階系統設定->環境變數 ->Path->編輯->然後將我們的路徑D:\CodeField\Tesseract-OCR新增到最後即可。添 加好系統變數後後依次點確定,這樣才算配置好了。 3. 下載語言包,Tesseract預設是不支援中文的,在下面地址中選擇Chinese-Simplified ,版本要與Tesseract對應,下載完成後我們需要放到Tesseract的路徑下的tessdata 目錄下,我們路徑是D:\CodeField\Tesseract-OCR\tessdata。 https://tesseract-ocr.github.io/tessdoc/Data-Files 4. 下載兩個模組: pip install pytesseract 用於文字識別 pip install pillow 用於圖片讀取"""