手把手教你如何用Python從PDF檔案中匯出資料（附連結）

阿新 • • 發佈：2018-12-04

有很多時候你會想用Python從PDF中提取資料，然後將其匯出成其他格式。不幸的是，並沒有多少Python包可以很好的執行這部分工作。在這篇貼子中，我們將探討多個不同的Python包，並學習如何從PDF中提取某些圖片。儘管在Python中沒有一個完整的解決方案，你還是應該能夠運用這裡的技能開始上手。提取出想要的資料之後，我們還將研究如何將資料匯出成其他格式。

讓我們從如何提取文字開始學起！

使用PDFMiner提取文字

最被大家所熟知的可能是一個叫做PDFMiner的包。PDFMiner包大約從Python 2.4版本就存在了。它的主要目的是從PDF中提取文字。實際上，PDFMiner可以告訴你某文字在分頁上具體的位置和字型資訊。對於Python 2.4到2.7版本，你可以參考以下網站來了解PDFMiner的更多資訊：

GitHub – https://github.com/euske/pdfminer

PyPI – https://pypi.python.org/pypi/pdfminer/

Webpage – https://euske.github.io/pdfminer/

PDFMiner是不兼容於Python 3的。幸運的是，PDFMiner家族的一個分支PDFMiner.six在Python 3上完全能勝任同樣的功能。

原文連結

手把手教你如何用Python從PDF檔案中匯出資料（附連結）

使用PDFMiner提取文字

手把手教你如何用Python從PDF檔案中匯出資料（附連結）

手把手教你用Python抓取熱門景點熱力圖!（附程式碼）

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

實用 | 手把手教你用Python分割與合併PDF

手把手教你用Python實踐深度學習|深度學習視頻教程

獨家 | 手把手教你用Python進行Web抓取（附程式碼）

【Python量化】手把手教你用python做股票分析入門

人工智慧應用-手把手教你用Python硬體程式設計實現開啟或關閉電燈泡

維基百科中的資料科學：手把手教你用Python讀懂全球最大百科全書

獨家 | 手把手教你用Python建立簡單的神經網路（附程式碼）

手把手教你用Python建立簡單的神經網路！

超有趣！手把手教你用Python實現實時“人臉檢測”

技術流 | 手把手教你用Python設計一個命令列介面

手把手教你用Python去除馬賽克！

手把手教你用Python完成一個控制檯小遊戲

手把手教你用 FastDFS 構建分散式檔案管理系統

機器學習決策樹ID3演算法，手把手教你用Python實現

機器學習——手把手教你用Python實現迴歸樹模型

【震驚】手把手教你用python做繪圖工具（一）

用python從txt檔案中讀入資料

手把手教你如何用Python從PDF檔案中匯出資料（附連結）

使用PDFMiner提取文字

相關推薦