手把手教你如何用Python從PDF檔案中匯出資料(附連結)
阿新 • • 發佈:2018-12-04
有很多時候你會想用Python從PDF中提取資料,然後將其匯出成其他格式。不幸的是,並沒有多少Python包可以很好的執行這部分工作。在這篇貼子中,我們將探討多個不同的Python包,並學習如何從PDF中提取某些圖片。儘管在Python中沒有一個完整的解決方案,你還是應該能夠運用這裡的技能開始上手。提取出想要的資料之後,我們還將研究如何將資料匯出成其他格式。
讓我們從如何提取文字開始學起!
使用PDFMiner提取文字
最被大家所熟知的可能是一個叫做PDFMiner的包。PDFMiner包大約從Python 2.4版本就存在了。它的主要目的是從PDF中提取文字。實際上,PDFMiner可以告訴你某文字在分頁上具體的位置和字型資訊。對於Python 2.4到2.7版本,你可以參考以下網站來了解PDFMiner的更多資訊:
GitHub – https://github.com/euske/pdfminer
PyPI – https://pypi.python.org/pypi/pdfminer/
Webpage – https://euske.github.io/pdfminer/
PDFMiner是不兼容於Python 3的。幸運的是,PDFMiner家族的一個分支PDFMiner.six在Python 3上完全能勝任同樣的功能。