python程式設計：tabula、pdfplumber、camelot進行表格資料識別

阿新 • • 發佈：2019-01-03

本文就目前python圖表識別的庫進行測試
1、tabula
2、pdfplumber
3、camelot

準備資料

excel：names.xlsx，兩個表格
表格1：所有欄位都被線條包圍
表格2：最外層沒有線條包圍
在這裡插入圖片描述

將excel另存為pdf：names.pdf
在這裡插入圖片描述

1、tabula

github：https://github.com/chezou/tabula-py

安裝:

pip install tabula-py

依賴：
Java 7, 8

程式碼示例：

import tabula

tabula.convert_into(
    input_path= 
"source/names.pdf",
    output_path="source/names.csv",
    output_format='csv'
)

轉換出來的names.csv，發現只有表格1被提取出來了，而且不規範，中間多了逗號

"姓名",年齡,性別
"李雷",,20 男
"韓梅梅",,23 女
"趙小三",,25 女

2、pdfplumber

github: https://github.com/jsvine/pdfplumber

安裝

pip install pdfplumber

程式碼示例：

import pdfplumber
import pandas as 
 pd

with pdfplumber.open("source/names.pdf") as pdf:
    # 獲取第一頁
    first_page = pdf.pages[0]
	
	# 解析文字
    text = first_page.extract_text()
    print(text)
	
	# 解析表格
    tables = first_page.extract_tables()
    for table in tables:
        print(table)
        # df = pd.DataFrame(table[1:], columns=table[0]) 

        for row in table:
            for cell in row:
                print(cell, end="\t|")
            print()
""" 
表格1:
姓名 年齡 性別
李雷 20 男
韓梅梅 23 女
趙小三 25 女

Table2：
Name Age Gender
Tom 30 Male
Jack 33 Male
Jone 31 Female

[['姓名', '年齡', '性別'], ['李雷', '20', '男'], ['韓梅梅', '23', '女'], ['趙小三', '25', '女']]

姓名	|年齡	|性別	|
李雷	|20	|男	|
韓梅梅	|23	|女	|
趙小三	|25	|女	|

[['30'], ['33']]

30	|
33	|

"""

文字解析的很全，只有表格1解析完全了，表格2只是解析了有框的部分

3、camelot

github: https://github.com/socialcopsdev/camelot

安裝：

pip install camelot-py[cv]

示例

import camelot

tables = camelot.read_pdf("source/names.pdf")
tables.export("source/names.csv")

生成2個檔案：
source/names-page-1-table-1.csv

"姓名","年齡","性別"
"李雷","20 男",""
"韓梅梅","23 女",""
"趙小三","25 女",""

source/names-page-1-table-2.csv

"Name","Age","Gender"
"Tom","","30 Male"
"Jack","","33 Male"
"Jone","","31 Female"

發現表格2的內容被解析出來了，不過兩個表格的內容都錯位了

經過測試後，發現這3個庫對錶格識別都不是太好

總結

庫名	說明
tabula	能提取完整表格，提取結果不規範
pdfplumber	能提取完整表格，提取結果較為規範
camelot	能提取完整表格和不完整表格，提取結果不規範

python程式設計：tabula、pdfplumber、camelot進行表格資料識別

本文就目前python圖表識別的庫進行測試 1、tabula 2、pdfplumber 3、camelot 準備資料 excel：names.xlsx，兩個表格表格1：所有欄位都被線條包圍表格2：最外層沒有線條包圍將excel另存為pdf：names.pdf 1

Python程式設計：pypdf2和pdfplumber獲取pdf檔案的頁數

pypdf2 安裝 pip install pypdf2 程式碼例項 from PyPDF2 import PdfFileReader filename = "test.pdf" reader = PdfFileReader(filename) # 不解密可能會報錯

Python程式設計：使用sys、argparse、click、fire實現命令列解析

python實現指令碼命令列的庫有：內建庫sys 內建庫argparse 第三方庫click 第三方庫fire 內建庫sys sys.argv 包含命令列引數列表，第一個引數是檔名 sys_demo.py import sys d

Python程式設計：讀取pdf、pptx、docx、xlsx檔案的頁數

pdf 安裝工具 pip install pdfplumber 程式碼示例 import pdfplumber from pdfminer.pdfparser import PDFSyntaxError def get_pdf_page(pdf_path):

十一、Go基礎程式設計：遞迴函式、函式型別、匿名函式與閉包

1. 遞迴函式遞迴指函式可以直接或間接的呼叫自身。遞迴函式通常有相同的結構：一個跳出條件和一個遞迴體。所謂跳出條件就是根據傳入的引數判斷是否需要停止遞迴，而遞迴體則是函式自身所做的一些處理。 //通過迴圈實現1+2+3……+100 func Test01() int { i

PHP面向物件程式設計：面向物件概念、基本實踐、高階實戰、PHP面向物件特殊實踐

一、面向物件的概念 1.1 什麼是面向物件(object oriented) 世間萬物皆物件，抽象的也是物件，一切可見或不可見都是物件 1.2 物件的基本組成

python基礎：函式名稱空間、作用域、全域性變數和區域性變數

一、名稱空間： Python的名稱空間的本質是一個字典，用來記錄變數名稱和值。字典的key是變數的名稱，字典的value對於的是變數的值。例如 {‘name’:’zs’,’age’:10} 名稱空間一共分為三種：區域性名稱空間、全域性名稱空間、內建名稱空間區域性名稱空間：每個函式都有自

多執行緒程式設計：兩個人A、B同時對一個賬戶取錢（A從ATM取，B從櫃檯取）

分析： 1）賬戶的錢必須設定是靜態的 2）所有人操作的是同一個賬戶，操作的時候要加同步鎖程式碼： package ThreadTest; import java.util.Objects; public class Bank { // 假設一個賬戶有100

Python 入門：裝飾器(decorator)、@functools.wraps、@staticmethod、@classmethod

裝飾器 1、要了解裝飾器，就需要知道什麼是高階函式，高階函式就是將函式作為引數賦值給另一個函式 2、Python的 decorator 本質上就是一個高階函式，它接收一個函式作為引數，然後，返回一個新函式 3、decorator是在被裝飾的

python入門：基礎，列表、元組、字典及集合型別

這篇文章是python基本資料結構的高階教程，一般的用法請自行參考python入門教程python入門教程基礎變數及其作用域函式運算子Python運算子優先順序從最高到最低優先順序的所有運算子運算子描述**指數 (最高優先順序)~ + -按位翻轉, 一元加號和減號 (最後兩個

python程式設計：從入門到實踐 pdf 下載

上到有程式設計基礎的程式設計師，下到10歲少年，想入門Python並達到可以開發實際專案的水平，本書是讀者優選！本書是一本全面的從入門到實踐的Python程式設計教程，帶領讀者快速掌握程式設計基礎知識、編寫出能解決實際問題的程式碼並開發複雜專案。書中內容分為基礎篇和

python程式設計：從入門到實踐學習筆記-Django開發使用者賬戶（一）

讓使用者能夠輸入資料（表單）在建立使用者賬戶身份驗證系統之前，先新增幾個頁面，讓使用者能偶輸入資料。新增新主題、新增新條目以及編輯既有條目。新增新主題 1.用於新增主題的表單建立一個forms.py檔案與models.py放在同一目錄下。 from django import

python程式設計：從入門到實踐學習筆記-Django入門（四）

建立其他網頁我們接下來擴充“學習筆記”專案，建立兩個顯示資料的網頁，其中一個列出所有的主題，另一個顯示特定主題的所有條目。模板繼承編寫一個包含通用元素的父模板，並讓每個網頁都繼承這個模板，而不必在每個網頁中重複定義這些通用元素。這樣我們可以專注於開發每個網頁的獨特部分。1.父模板

python程式設計：從入門到實踐學習筆記-Django入門（二）

建立網頁：學習筆記主頁使用django建立網頁通常分三個階段：定義URL、編寫檢視和編寫模板。首先必須定義URL模式，其描述了URL是如何設計的，讓django知道如何將瀏覽器請求與網站URL匹配，以確定返回哪個網頁。每個URL都被對映到特定的檢視——檢視函式獲取並處理網頁所需的資料。檢視函

python程式設計：從入門到實踐學習筆記Django入門（一）

建立應用程式 django專案由一系列應用程式組成，他們協同工作，讓專案稱謂一個整體。首先我們執行命令python manage.py startapp learning_logs。定義模型開啟剛剛我們建立的資料夾，並修改mod

python程式設計：從入門到實踐學習筆記-類

面向物件程式設計時，都會遇到一個概念，類，python也有這個概念，下面我們通過程式碼來深入瞭解下。建立和使用類 class Dog(): def __init__(self, name, age):

python程式設計：從入門到實踐學習筆記-檔案和異常

從檔案中讀取資料讀取檔案、檔案路徑 #pi_digits.txt 3.1415926535 8979323846 2643383279 #file_reader.py fillename = 'pi_digits.txt' #讀取整個檔案 with

python程式設計：從入門到實踐學習筆記-字典

字典類似於通過聯絡人名字查詢聯絡人電話號碼的電話本，即把鍵（名字）和值（電話號碼）聯絡在一起。注意，鍵必須是唯一的。並且python只能使用不可變的物件（比如字串）來作為字典的鍵，但是可以將不可變或可變的物件作為字典的值。舉一個簡單的字典例子。 alien = {'color': 'gre

python程式設計：從入門到實踐學習筆記-函式

定義函式舉個簡單的例子 def greet_user(username): """先是簡單的問候語""" print("Hello! " + username.title() + "!") greet_user("mike") 執

Python程式設計：pyenv管理多個python版本環境

pyenv 多版本的Python管理工具 https://github.com/pypa/pipenv pyenv-virtualenv 虛擬環境管理工具 https://github.com/pyenv/pyenv-virtualenv 安裝 mac系統下 $ brew

python程式設計：tabula、pdfplumber、camelot進行表格資料識別

準備資料

1、tabula

2、pdfplumber

3、camelot

總結

相關推薦