1. 程式人生 > >python3影象識別庫安裝與使用

python3影象識別庫安裝與使用

pytesseract庫的安裝

因為用的win10,就直說windows上面的安裝了。其實就是pip安裝就完事了。

$ pip install pytesseract

安裝了這個還不算完,得安裝Tesseract-OCR,安裝這個軟體的時候,因為我們需要識別中文,所以還需要額外安裝中文語言包:

1

點選Additional language data(download)旁邊的加號,勾選中文語言包,然後就一路Next了:

2

最後,你還可以將tesseract.exe加進系統的Path裡面。

簡單使用

pytesseract不僅支援英文,還支援很多其他語言,從上面安裝過程中勾選的地方就能看出來,中文,也不例外。

要使用pytesseract,其實很簡單:

from PIL import Image
import pytesseract
image = Image.open('pic2.png')
imtext = pytesseract.image_to_string(image,lang='chi_sim')
print(imtext)

看起來是沒什麼問題的,但是一執行。。。。

C:\ProgramData\Anaconda3\python.exe F:/python/pro/Pic_t/test.py
Traceback (most recent call last):
  File "F:/python/pro/Pic_t/test.py"
, line 5, in <module> imtext = pytesseract.image_to_string(image,lang='chi_sim') File "C:\ProgramData\Anaconda3\lib\site-packages\pytesseract\pytesseract.py", line 125, in image_to_string raise TesseractError(status, errors) pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\chi_sim.traineddata'
) Process finished with exit code 1

就報錯了,這裡看來是中文的語言訓練集路徑不對,google了一下,有大神說使用config屬性:

from PIL import Image
import pytesseract
image = Image.open('pic2.png')
# 指定路徑
tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
imtext = pytesseract.image_to_string(image,lang='chi_sim',config=tessdata_dir_config)
print(imtext)

運行了一下,成功了。。。

另外,lang這個屬性是指定語言的,要是程式碼裡面不給這個引數,預設是英文,也就是eng