python辦公自動化——提取pdf中的文字和表格

阿新 • • 發佈：2020-12-12

技術標籤：python爬蟲 python

python辦公自動化——提取pdf中的文字和表格

一、提取pdf中的文字

編碼流程：
- 1.匯入包：import pdfplumber
- 2.找到pdf路徑:pdf_path = ‘xxx.pdf’
- 3.開啟pdf :pdf = pdfplumber.open(pdf_path)
- 4.獲取頁面
  - 獲取某一頁：parse_page = pdf.pages[n]
  - 獲取所有頁面:parse_page = pdf.pages
- 5.獲取所有頁面的文字:parse_page.extract_text()
- 6.儲存文字:with open("./儲存路徑.txt",‘a’,encoding = ‘utf-8’) as f:
  
  f.write(text+’\n’)
程式碼：
- 獲取某個頁面

import pdfplumber

pdf_path = './XXX預算.pdf'

pdf = pdfplumber.open(pdf_path)

with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:
     parse_page = pdf.pages[0]#提取第一頁文字
     text = parse_page.extract_text()
     f.write(text+'\n')

獲取所有頁面

import pdfplumber

pdf_path = 
 './XXX預算.pdf'

pdf = pdfplumber.open(pdf_path)

with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:
	 for page in pdf.pages:
     text = page.extract_text()
     f.write(text+'\n')

二、獲取pdf中的所有表格

1.匯入包：import xlwt , import pdfplumber
2.定義儲存Excel的路徑：workbook = xlwt.Workbook()
3.新建一個工作表存放表格:sheet = workbook.addsheet(“XXX”)

4.找到pdf路徑：pdf_path = “./XXX.pdf”
5.開啟pdf檔案：pdf = pdfplumber.open(pdf_path)
6.for迴圈
- 6-1 獲取網頁中的所有資訊，包括表格
  - for page in pdf.pages
- 6-2 獲取頁面中的所有表格
  - for table in page.extract_tables()
- 6-3 獲取表格中的每一行
  - for row in table
- 6-4 獲取每一行中的每一列
  - for j in range(len(row))
7.寫入sheet中:sheet.write(i,j,row[j])
8.關閉pdf：pdf.close()
9.儲存EXCEL表格：workbook.save("./XXX.xls")

import xlwt
import pdfplumber
#定義儲存Excel的位置
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("XXX摘要表格")

pdf_path = './XXX.pdf'
pdf = pdfplumber.open(pdf_path)

i = 0
for page in pdf.pages:#獲取頁面中的所有資訊
    for table in page.extract_tables():#獲取頁面的所有表格
        for row in table:#遍歷表格中的每一行
            print(row)
            for j in range(len(row)):
                sheet.write(i, j, row[j])
            i = i + 1
pdf.close()

workbook.save("./XXX摘要表格.xls")
print('\n')
print('寫入成功!!!')

python辦公自動化——提取pdf中的文字和表格

技術標籤：python爬蟲python python辦公自動化——提取pdf中的文字和表格一、提取pdf中的文字

最全總結 | 聊聊 Python 辦公自動化之 Word（中）

1. 前言上一篇文章，對 Word 寫入資料的一些常見操作進行了總結最全總結 | 聊聊 Python 辦公自動化之 Word（上）

最全總結 | 聊聊 Python 辦公自動化之 PPT（中）

1. 前言上一篇文章簡單地介紹了 PPT 的文件結構，並使用 python-pptx 這個依賴庫完成對 PPT 文件最基本的操作

python [:3] 實現提取陣列中的數

搜尋答案搜尋不到，自己試了一把．首先生成一維陣列 a =np.array([1,2,3,4,5,6,7,8,9])

Java 新增、提取PDF中的圖片

Spire.Cloud.SDK for Java提供了PdfImagesApi介面可用於新增圖片到PDF檔案addImage()、提取PDF中的圖片extractImages()，具體操作步驟和Java程式碼示例可參考以下內容。

Python辦公自動化之Excel做表自動化：全網最全，看這一篇就夠了！

文章目錄很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對這三類人，我給大家提供一個好的

python向企業微信傳送文字和圖片訊息的示例

吐槽一下企業微信的api文件真的不好讀······ 企業微信本來是有功能，可以直接把圖片顯示到正文的，但是那個api我呼叫一直出錯，各種折騰也沒解決。後來感覺就算了，沒必要，用url拼接在文字中也行，這樣的好處

開發筆記：PDF生成文字和圖片水印

背景團隊手裡在做的一個專案，其中一個小功能是使用者需要上傳PDF檔案到檔案伺服器上，都是一些合同或者技術評估文件，鑑於知識版權和防偽的目的，需要在上傳的PDF檔案打上水印，

最全總結 | 聊聊 Python 辦公自動化之 Word（上）

1. 前言日常自動化辦公中，使用 Python 真的能做到事半功倍！在上一個系列中，我們對Python 操作 Excel 進行了一次全面總結

最全總結 | 聊聊 Python 辦公自動化之 Word（下）

1. 前言關於 Word 文件的讀寫，前面兩篇文章分別進行了一次全面的總結最全總結 | 聊聊 Python 辦公自動化之 Word（上）

python辦公自動化（一）

技術標籤：Python辦公自動化pythonexcel 這個是一個Python辦公自動化小程式，目的：某個物體有三個度量值，分別是長、寬、高。現有多個物體的長寬高已知，並作為模具使用。現在欲使用已有的模具製作新的樣品，查

Python辦公自動化系列：10行Python程式碼自動清理電腦內重複檔案，減少電腦記憶體

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python辦公自動化系列：自動整理檔案，減少工作時間

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

最全總結 | 聊聊 Python 辦公自動化之 PPT（下）

1. 前言作為辦公自動化 PPT 系列篇的最後一篇文章，我們將 PPT 中的高階功能及常用點

Python辦公自動化

xlrd模組 xlrd為python第三方模組，用來讀取excel表格資料。安裝：pip install xlrd 匯入：import xlrd

python實現在excel檔案中寫入和追加內容

技術標籤：檔案操作excelpython excel是我們在日常工作中經常會用到的表格工具，我們在也已通過python來實現excel檔案中寫入和追加內容。

Python在自動化分析工具中的應用-工作隨記

技術標籤：Pythonpython資料分析自動化工具目錄檔案及路徑相關操作正則表示式資料格式轉換資料分析神器Pandas

python selenium自動化程式碼與測試步驟和測試資料分離

技術標籤：軟體測試python \'\'\' 以下為檔案中的測試資料，第一列為函式步驟，第二列為資料，檔案存放路徑為：e:\\\\data.txt

python辦公自動化（實現execl匯入mysql資料庫）

環境：python3、工具PyCharm、依賴包xlrd a、execl data1.xlsx的內容 b、獲取execl內容的python檔案內容

Python基礎教程：json中load和loads區別

相同點 dump 和 dumps 都實現了序列化 load 和 loads 都實現反序列化變數從記憶體中變成可儲存或傳輸的過程稱之為序列化