Python3.7.4安裝paddleOCR 進行圖片識別
一、背景交代
手裡有很多含有表格的圖片,需要把這些表格從圖片中提取到Excel中。由於並不想花無用功在整理表格上,於是就想著利用python進行圖片識別,然後輸出為.csv或者.xlsw檔案。
這裡本文將著重介紹用於圖片內容識別的paddle-OCR的安裝,光是安裝這個庫就花費了我很長時間。至於圖片中表格提取,後面再專門寫一篇。
二、安裝前的準備
前提:本人的老筆記本是win7系統、python3.7.4、pycharm、microsoft visual C++14.0
1.首先要安裝 paddlepaddle(https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/windows-pip.html
圖1 圖2
2.下載支援paddleOCR的各種包
shapely
imgaug
pyclipper
lmdb
opencv-python==4.2.0.32
tqdm
numpy
visualdl
python-Levenshtein
上面這些庫可以自己手動利用Pip一個個安裝,也可以複製下來建立一個requirements.txt文件,將這些內容複製進去,然後利用pip install -r D://requirements.txt
其中在安裝python-Levenshtein這個庫的時候,一直提示安裝失敗,因為缺少microsoft visual c++ 14.0,後來在網上不斷的查詢與嘗試,終於在下載並安裝了visual studio 2017後成功解決問題
3.安裝paddle-OCR
①利用命令:pip install "paddleocr>=2.0.1" 下載
②如果不成功,可以在github內部下載(https://github.com/PaddlePaddle/PaddleOCR),如圖2所示,直接下載下來