1. 程式人生 > >關於崔慶才老師python3爬蟲中tesserocr安裝以及測試中出現Failed to init API, possibly an invalid tessdata path的完整解決方案

關於崔慶才老師python3爬蟲中tesserocr安裝以及測試中出現Failed to init API, possibly an invalid tessdata path的完整解決方案

1 我假設大家都安裝了anaconda,因為我用的anaconda3,安裝目錄是 D:\ProgramData\Anaconda3; 2 安裝tesseract,地址是 https://digi.bib.uni-mannheim.de/tesseract/,我安裝的3.05.02穩定版,注意,安裝盤一定要和anaconda3是同一個盤,如果不是同一個盤,就會造成題目中出現的不合法路勁的錯誤,我是安裝在根目錄下的,建議大家和我一樣,以免出現其他問題,我的目錄是:D:\Tesseract-OCR 3 配置環境變數,將D:\Tesseract-OCR新增到環境變數的系統變數中的path中,並且新建TESSDATA_PREFIX變數,值為tessdata的路徑,我的是D:\Tesseract-OCR\tessdata; 4

複製tessdata資料夾到Anaconda3目錄下; 5 電腦左下角開始選單點開anaconda3-anaconda prompt,這個cmd開啟一般就是python的base環境,然後 pip install pytesseract (我不確定這個包是不是一定要安裝,反正我安裝了),然後 conda install -c simonflueckiger tesserocr (可能比較慢,取決於你的網路),安裝完以後重啟電腦,注意,win10一定要重啟電腦,不然新設定的環境變數不會馬上生效; 6
重啟電腦後,假設你從https://github.com/Python3WebSpider/TestTess/blob/master/image.png下載了圖片到桌面上,為了測試方便,最好先放在桌面上吧,因為其他地方可能還要指定路徑。在桌面上按住shift鍵,同時滑鼠按下右鍵,選擇在此處開啟命令視窗,開啟後先輸入tesseract image.png result -l eng然後回車,然後在桌面上就出現了一個result的txt文件,開啟後發現就是我們想要的結果,證明tesseract安裝成功,不要關閉cmd,輸入python,進入python互動環境,輸入 import tesserocr,回車,再輸入print(tesserocr.file_to_text(‘image.png’)),回車,就出現了我們想要的結果。 7
至此,希望大家都順利通過了,第一次寫部落格,希望大家多多指正,謝謝大家。