Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比

阿新 • • 發佈：2018-12-04

bubuko class ota ces manage 數據源碼 elif 便是

pdf 是個異常坑爹的東西，有很多處理 pdf 的庫，但是沒有完美的。

一、pdfminer3k

pdfminer3k 是 pdfminer 的 python3 版本，主要用於讀取 pdf 中的文本。

網上有很多 pdfminer3k 的代碼示例，看過以後，只想吐槽一下，太復雜了，有違 python 的簡潔。

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import 
 PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

path = "test.pdf"

# 用文件對象來創建一個pdf文檔分析器
praser = PDFParser(open(path, ‘rb‘))
# 創建一個PDF文檔
doc = PDFDocument()
# 連接分析器 與文檔對象
praser.set_document(doc)
doc.set_parser(praser)

# 
 提供初始化密碼
# 如果沒有密碼 就創建一個空的字符串
doc.initialize()

# 檢測文檔是否提供txt轉換，不提供就忽略
if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
else:
    # 創建PDf 資源管理器 來管理共享資源
    rsrcmgr = PDFResourceManager()
    # 創建一個PDF設備對象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
     
# 創建一個PDF解釋器對象
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    # 循環遍歷列表，每次處理一個page的內容
    for page in doc.get_pages():
        interpreter.process_page(page)                        
        # 接受該頁面的LTPage對象
        layout = device.get_result()
        # 這裏layout是一個LTPage對象，裏面存放著這個 page 解析出的各種對象
        # 包括 LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等                            
        for x in layout:
            if isinstance(x, LTTextBox):
                print(x.get_text().strip())

pdfminer 對於表格的處理非常的不友好，能提取出文字，但是沒有格式：

pdf表格截圖：

技術分享圖片

代碼運行結果：

技術分享圖片

想把這個結果還原成表格可不容易，加的規則太多必然導致通用性的下降。

二、tabula-py

tabula 是專門用來提取PDF表格數據的，同時支持PDF導出為CSV、Excel格式，但是這工具是用 java 寫的，依賴 java7/8。tabula-py 就是對它做了一層 python 的封裝，所以也依賴 java7/8。

代碼很簡單：

import tabula

path = ‘test.pdf‘

df = tabula.read_pdf(path, encoding=‘gbk‘, pages=‘all‘)
for indexs in df.index:
    print(df.loc[indexs].values)

# tabula.convert_into(path, os.path.splitext(path)[0]+‘.csv‘, pages=‘all‘)

雖然號稱是專業處理 pdf 中的表格的，但實際效果也不咋地。還是 pdfminer 中使用的 pdf，運行結果如下：

技術分享圖片

這結果真的很尷尬啊，表頭識別就錯了，還有 pdf 中有兩張表，我沒發現怎麽區分表。

三、pdfplumber

pdfplumber 是按頁來處理 pdf 的，可以獲得頁面的所有文字，並且提供的單獨的方法用於提取表格。

import pdfplumber

path = ‘test.pdf‘
pdf = pdfplumber.open(path)

for page in pdf.pages:
    # 獲取當前頁面的全部文本信息，包括表格中的文字
    # print(page.extract_text())                        

    for table in page.extract_tables():
        # print(table)
        for row in table:
            print(row)
        print(‘---------- 分割線 ----------‘)

pdf.close()

得到的 table 是個 string 類型的二維數組，這裏為了跟 tabula 比較，按行輸出顯示。

技術分享圖片

可以看到，跟 tabula 相比，首先是可以區分表格，其次，準確率也提高了很多，表頭的識別完全正確。對於表格中有換行的，識別還不是很正確，但至少列的劃分沒問題，所以還是能處理的。

import pdfplumber
import re

path = r‘E:\abc\服務中標結果__\下載\中標公告-六批大型施工.pdf‘
pdf = pdfplumber.open(path)

for page in pdf.pages:
    print(page.extract_text())
    for pdf_table in page.extract_tables():
        table = []
        cells = []
        for row in pdf_table:
            if not any(row):
                # 如果一行全為空，則視為一條記錄結束
                if any(cells):
                    table.append(cells)
                    cells = []
            elif all(row):
                # 如果一行全不為空，則本條為新行，上一條結束
                if any(cells):
                    table.append(cells)
                    cells = []
                table.append(row)
            else:
                if len(cells) == 0:
                    cells = row
                else:
                    for i in range(len(row)):
                        if row[i] is not None:
                            cells[i] = row[i] if cells[i] is None else cells[i] + row[i]
        for row in table:
            print([re.sub(‘\s+‘, ‘‘, cell) if cell is not None else None for cell in row])
        print(‘---------- 分割線 ----------‘)

pdf.close()

經過處理後，運行得到結果：

技術分享圖片

這結果已經完全正確了，而用 tabula，即便是經過處理也是無法得到這樣的結果的。當然對於不同的 pdf，可能需要不同的處理，實際情況還是要自己分析。

pdfplumber 也有處理不準確的時候，主要表現在缺列：

我找了另一個 pdf，表格部分截圖如下：

技術分享圖片

解析結果如下：

技術分享圖片

4列變成了兩列，另外，如果表格有合並單元格的情況，也會有這種問題，我挑這個表格展示是因為比較特殊，沒有合並單元格也缺列了。這應該跟 pdf 生成的時候有關。

但其實數據是獲取完整的，並沒有丟，只是被認為是非表格了。輸出 page.extract_text() 如下：

技術分享圖片

然後，我又用 tabula 試了下，結果如下：

技術分享圖片

列是齊了，但是，表頭呢？？？

pdfplumber 還提供了圖形Debug功能，可以獲得PDF頁面的截圖，並且用方框框起識別到的文字或表格，幫助判斷PDF的識別情況，並且進行配置的調整。要使用這個功能，還需要安裝ImageMagick。因為沒有用到，所以暫時沒有去細究。

四、後記

我們在做爬蟲的時候，難免會遇到 pdf 需要解析，主要還是針對文本和表格的數據提取。而 python 處理 pdf 的庫實在是太多太多了，比如還有 pypdf2，網上資料也比較多，但是我試了，讀出來是亂碼，沒有仔細的讀源碼所以這個問題也沒有解決。

而我對比較常用的3個庫比較後覺得，還是 pdfplumber 比較好用，對表格的支持最好。

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比

bubuko class ota ces manage 數據源碼 elif 便是 pdf 是個異常坑爹的東西，有很多處理 pdf 的庫，但是沒有完美的。一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本，主要用於讀取 pdf

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比

一、pdfminer3k

二、tabula-py

三、pdfplumber

四、後記

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比

Python：解析PDF文字及表格——pdfminer、tabula、pdfplumber 的用法及對比

php如何利用python實現對pdf文件的操作（讀寫、合並分割）

python 解析pdf文件的首、尾頁

Python應用——自定義函數：分割PDF文件函數

python解析PDF文件

【U1結業機試題】新聞內容管理系統：解析XML文件讀取Html模版生成網頁文件

Python學習-KindEditor-富文本編輯框

Selenium2+python自動化23-富文本（自動發帖）【轉載】

Selenium2+python自動化49-判斷文本（text_to_be_present_in_element）【轉載】

java 解析富文本處理 img 標簽

python實現發送文本郵件

Selenium2+python自動化23-富文本（自動發帖）

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

手機接收到的PDF文件裏表格怎麽提取出來

C# 提取PDF文本和圖片

從文本中提取圖片路徑（java 解析富文本處理 img 標簽）

python：將txt文件中是數值型資料讀入到array陣列中

Apache PdfBox 2.0.X 版本解析PDF文件（文字和圖片）

OS開發小記：iOS富文本框架DTCoreText在UITableView上的使用

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比

一、pdfminer3k

二、tabula-py

三、pdfplumber

四、後記

相關推薦