1. 程式人生 > 實用技巧 >用python識別圖片中的文字,批量識別還有待研究

用python識別圖片中的文字,批量識別還有待研究

# incoding=gbk

import os
import pytesseract
from PIL import Image

# 讀取圖片
im = Image.open(r'C:\Users\Administrator\Desktop\sentence.jpg')
im_2 = Image.open(r'C:\Users\Administrator\Desktop\sentence.png')

# 識別文字
string = pytesseract.image_to_string(im)
print(string)

string_2 = pytesseract.image_to_string(im_2, lang='
chi_sim') print(string_2) """ Tesseract的安裝及配置 1. https://digi.bib.uni-mannheim.de/tesseract/ 選擇合適的版本下載 2. 將安裝目錄配置到系統path變數當中,右擊我的電腦->屬性->高階系統設定->環境變數 ->Path->編輯->然後將我們的路徑D:\CodeField\Tesseract-OCR新增到最後即可。添 加好系統變數後後依次點確定,這樣才算配置好了。 3. 下載語言包,Tesseract預設是不支援中文的,在下面地址中選擇Chinese-Simplified ,版本要與Tesseract對應,下載完成後我們需要放到Tesseract的路徑下的tessdata 目錄下,我們路徑是D:\CodeField\Tesseract-OCR\tessdata。 https://tesseract-ocr.github.io/tessdoc/Data-Files 4. 下載兩個模組: pip install pytesseract 用於文字識別 pip install pillow 用於圖片讀取
"""