1. 程式人生 > 其它 >python3使用OCR識別圖片

python3使用OCR識別圖片

放假三天,閒來無事,想學下python爬蟲。本想跟著網上教程操作一遍,奈何安裝使用過程中出現一堆問題,並且在網上搜了一堆複製黏貼的答案,關鍵都不能起作用,最後終於找到一篇生效,為了以後不至於再經歷這種痛苦,還是將多年未用的賬號給翻了出來,將安裝過程記錄下來,以免以後突然心血來潮又想搞一把。

 

環境:

  • win10
  • python 3.10.4
  • tesseract-ocr-w64-setup-v5.0.1.20220118

 

看網上教程,使用python識別圖片需要先安裝tesseract,然後再安裝python ocr庫,才能正常使用。這裡分為兩部分介紹:

tesseract

  • 安裝

安裝包下載路徑https://digi.bib.uni-mannheim.de/tesseract/,從上面下載所需版本後,點選安裝:

 

 

 需要注意的是此次將“Additional language data(download)”選中,然後一路點選Next,直至安裝即可。

  • 配置環境變數

首先需要新建系統變數TESSDATA_PREFIX,設定成你的軟體安裝路徑:(注意加上tessdata,此處網上的坑極大,沒有加導致使用時報

Error opening data file C:\Program Files\Tesseract-OCR\eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.

 

然後需要在PATH變數中新增軟體的安裝路徑:

 

 

 然後開啟CMD進入圖片存放路徑驗證是否能識別成功:(image.png可以換成帶有字母或數字的圖)

 

 

 

 

安裝Python的OCR識別庫

  •  安裝

 直接使用命令安裝:

pip install Pillow
pip install pytesseract
  • 使用

在python腳步中新增如下程式碼,執行即可看到結果:

textPath = "C:\\Users\\umj\\Desktop\\image.jpg"
print(pytesseract.image_to_string(Image.open(textPath), lang="
eng"))

 

 

參考連結:https://www.jb51.net/article/183990.htm