1. 程式人生 > >python使用pytesseract識別圖片中的文字

python使用pytesseract識別圖片中的文字

        在python爬蟲時,可能會遇到需要抓取驗證碼,識別圖片中的文字等,python也確實提供了這個功能。下面便是步驟:

        1. 下載Tesseract-OCR,下載地址為:tesseract下載地址,下載之後下一步下一步傻瓜式安裝即可。隨後將其新增到環境變數。在環境變數和系統變數的path中新增;D:\tesseract\Tesseract-OCR(tesseract的安裝目錄)。在cmd命令中執行tesseract -v,若出現以下頁面,便是成功了。


        2. 下載簡體字識別包,地址為:tessdata,下載chi_sim.traineddata即可,如果需要識別其他字型,也可以下載相應字型。下載好的字型放入Tesseract-OCR\tessdata資料夾下。圖為:


        3. 在系統變數中新建一個配置資訊,命名為:TESSDATA_PREFIX,變數值為安裝路徑D:Tesseract-OCR


        4. 安裝tesseract,cmd輸入'pip install pytesseract'

        5. 安裝pillow, cmd輸入'pip install Pillow'

    6. 修改tesseract_cmd,開啟D:\Python\Lib\site-packages\pytesseract中的pytesseract.py檔案,ctrl+f搜尋tesseract_cmd,將其改為簡體中文包所在檔案目錄。'D:/tesseract/Tesseract-OCR/tesseract'。


        7. 編寫程式碼


好啦,就介紹到這裡嘍~