圖片提取文字
阿新 • • 發佈:2019-01-07
先上一張效果圖
程式碼:
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('timg.jpg'),lang='chi_sim')
print(text)
具體實現:
1.使用的庫有pillow(PIL的代替,PIL年久失修),pytesser,Tesseract OCR引擎。
pillow,pytesser都是python庫,可以通過pip下載。
pip install pytesseract
pip install pillow
Tesseract OCR引擎是一個exe檔案,下載後需要安裝,配置環境變數。下載地址:http://download.csdn.net/download/l_lipo/10202168
包含了Tesseract OCR和需要的中文語音包。
下載後安裝,path中配置環境變數,D:\Learning Programs\Tesseract-OCR
配置TESSDATA_PREFIX變數,指向D:\Learning Programs\Tesseract-OCR\tessdata
把語言包放到tessdata資料夾中。
修改pytesser庫中pytesseract.py檔案,地址指向引擎執行檔案路徑。
import os import sys import subprocess importtempfile import shlex # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'D:/Learning Programs/Tesseract-OCR/tesseract.exe'
至此,準備工作就做完了。
2.操作:
將圖片放在與py檔案平齊的目錄中,寫程式碼。執行即可
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('timg.jpg' ),lang='chi_sim')
print(text)