[Python工具]pdf表格提取camelot安裝教程
阿新 • • 發佈:2018-11-10
pdf表格提取camelot安裝教程
經過測試,macos 與win10 均可以用一下方式安裝
Camelot: 一個友好的PDF表格資料抽取工具
一個python命令列工具,使任何人都能很輕鬆的從PDF檔案中抽取表格資料。
怎樣使用Camelot
使用Camelot從PDF文件提取資料非常簡單
.Camelot允許你通過調整設定項來精確控制資料的提取過程
.可以根據空白和精度指標來判斷壞的表格,並丟棄,而不必手動檢查
.每一個表格資料是一個panda的dataframe,從而可以很方便的整合到ETL和資料分析工作流中
.可以把資料匯出為各種不同的格式比如 CSV、JSON、EXCEL、HTML
- pip 安裝指令:
首先在電腦上安裝python3.6,然後再命令列輸入:
pip install camelot-py
- 進入python命令列測試
(CLOT) C:\Users\yss>python Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> import camelot as cl ...... import chardet # For str encoding detection in Py3 ModuleNotFoundError: No module named 'chardet' >>>
如果如同上述情況報錯:No module named ‘chardet’,返回系統命令列,執行:
pip install chardet
安裝chardet成功後,再次進入python命令測試:
(CLOT) C:\Users\yss>python Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> import camelot as cl File "F:\APP\Ides\Anaconda3\envs\CLOT\lib\site-packages\camelot\image_processing.py", line 5, in <module> import cv2 ModuleNotFoundError: No module named 'cv2' >>>
報錯:ModuleNotFoundError: No module named ‘cv2’,這是應為opencv庫沒有安裝。
再次返回系統命令列,安裝opencv庫:
pip install opencv-python
執行完上述操作,就安裝成功了。
- 安裝成功,測試一下
再次進入python,輸入:
import camelot as cl
不再會報錯了。
輸出其版本號:
print(cl.__version__)
測試過程如下:
(CLOT) C:\Users\yss>python
Python 3.6.7 |Anaconda, Inc.| (default, Oct 28 2018, 19:44:12) [MSC v.1915 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import camelot as cl
>>> cl.__version__
'0.3.2'
>>>
安裝完成了,後面就是開始使用,後面有機會,我也會把使用的心得更新上來。