yb課堂使用者模組個人中心《四十一》

阿新 • • 發佈：2020-07-21

PDF（Portable Document Format），中文名稱便攜文件格式是我們經常會接觸到的一種檔案格式，文獻、文件…很多都是PDF格式。它以格式穩定的優勢，使得我們在列印、分享、傳輸過程中能夠最優的保持原有色彩和格式。

PDF是以PostScript語言影象模型為基礎的一種文件格式，它在格式的穩定性方面雖然具有很大優勢。但是，在可編輯性方面卻為使用者引入了另外一個困擾。

例如，在文件的分割、合併、剪下、轉換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF…經常用到的PDF工具只能用於文件閱讀，但是免費版都不可以用於文件編輯。雖然，網頁版PDF工具，例如SmallPDF、I love PDF可以用於PDF的編輯，但是對於文件大小也有限制。

曾經，為了替換PDF中的一頁，我幾乎試遍了所有市面上主流的PDF工具，最終還是不得不選擇使用付費工具來解決問題。

事後想了想，既然這些商業化軟體不靠譜，為什麼不考慮自己動手開發一款工具呢？明明幾十行程式碼能夠解決的問題，為什麼要費那麼多勁去下載、安裝那些沒有節操的軟體呢？

本文就來介紹一下利用Python輕鬆開發一款PDF編輯工具，可以用於PDF轉TxT、分割、合併、剪下、轉換。

PyPDF2

PyPDF2是一個第三方的python PDF庫，它能夠對PDF檔案進行分割、合併、裁剪和轉換頁面。

另外，它還可以對PDF檔案新增自定義資料、水印、密碼，也可以從PDF檔案中檢索出文本和元資料。

安裝

使用pip直接安裝：

$ pip install PyPDF2

下面就來演示幾項PDF編輯功能，並且會逐行解釋程式碼的含義。

刪除PDF頁

先給出實現程式碼，

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()     // 1
input1 = PdfFileReader(open("example.pdf", "rb")) // 2

def delete_pdf(index):
 pages = input1.getNumPages() // 3

 for i in 
 range(pages):
  if i+1 in index:
   continue
  output.addPage(input1.getPage(i))  // 4

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream)  // 5

delete_pdf([2,3,4])

下面來解釋一下程式碼中的幾個關鍵點：

宣告一個用於輸出PDF的例項；
讀取本地PDF檔案；
獲取PDF文件的頁數；
讀取PDF的第i頁，新增到輸出output例項中；
把編輯後的文件儲存到本地；

合併PDF

已經實現了刪除PDF頁，接下來就看一下如何把另外一個PDF中的頁面合併到當前PDF中。

方法1：

可以沿著前面刪除PDF頁的方式進行拓展一下，對PDF進行合併。

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(open("example.pdf", "rb"))
input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1

def merge_pdf(add_index, origin_index):
 pages = input1.getNumPages()
 k = 0
 for i in range(pages):
  if i+1 in add_index:
   output.addPage(input2.getPage(origin_index[k])) // 2
   pages += 1
   k += 1
  output.addPage(input1.getPage(i))

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream)

merge_pdf([2,3,4], [0, 0, 0])

讀取需要合併的原始檔；
遍歷到指定頁，合併源PDF的頁面；

方法2：

除了方法1，還有另外一種方法可以合併PDF：

from PyPDF2 import PdfFileMerger // 1

merger = PdfFileMerger()

input1 = open("document1.pdf", "rb") // 2
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")

merger.append(fileobj = input1, pages = (0,3)) // 3

merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4

merger.append(input3) // 5

output = open("document-output.pdf", "wb")
merger.write(output)

匯入PyPDF2合併模組PdfFileMerger;
讀取需要處理和合並的PDF文件；
從第一個PDF文件中取出需要合併的前3頁；
把第二個PDF文件的第一頁插入到文件中；
把第三個PDF文件附到輸出文件末尾；
除了上述介紹的2項主要功能，PyPDF2也有一些其他小功能：

旋轉

input1.getPage(1).rotateClockwise(90)

使得頁面1旋轉90度。

新增水印

page = input1.getPage(3)
watermark = PdfFileReader(open("watermark.pdf", "rb"))
page.mergePage(watermark.getPage(0))

其中，水印儲存在另外一個PDF文件watermark.pdf中。

加密

password = "secret"
output.encrypt(password)

首先給一個secret密碼，然後使用encrypt對輸出文件進行加密。

pdfminer

前面介紹的PyPDF2主要擅長於PDF頁面級編輯，而對於文字和源資料級別編輯能力較弱。

所以，這裡就來介紹另外一款Python庫來彌補它的不足。

PDFMiner是一個PDF文件的文字提取工具，它具有如下特性：

能夠準確獲取文字的位置和佈局資訊；
可以將PDF轉換為HTML/XML等格式；
可以提取目錄；
可以提取標籤內容；
支援各種字型型別（Type1、TrueType、Type3和CID）;
支援中、日、韓語言和垂直書寫文字;

安裝

$ pip install pdfminer

PDF轉TxT

pdfminer在GitHub的託管專案中，在目錄tools下給出了一些實用的工具集，例如，PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下面命令提出PDF文件中的文字資訊。

$ pdf2txt.py samples/simple1.pdf

總結

通過上述2款Python庫，就可以實現從頁面到文字元資料的編輯，本文只是簡單的介紹了每項的基本用法。關於詳細的用法和函式列表，可以閱讀官方文件，或者閱讀GitHub上專案原始碼進行了解。此外，可以在這些基本的用法基礎上進行發散思維，發掘更多有價值的應用場景，例如，提出文字資料之後呼叫翻譯API進行文獻翻譯。也可以，對軟體進行封裝，開發成一款通用的PDF編輯工具。

yb課堂使用者模組個人中心《四十一》

PyPDF2

本文福利

yb課堂使用者模組個人中心《四十一》

yb課堂註冊-登陸-個人模組《三十九》

2020.8.16第四十一天

大資料實戰（四十一）：電商數倉（三十四）之使用者行為資料倉庫（二十）與top相關

Flink基礎（四十一）：FLINK SQL(十七)Catalogs

ES基礎（四十一）物件及Nested物件

Flink實戰案例（四十一）: Operators（二）MAP

jeesite實戰(四十一)——如何在另外一個標籤頁開啟內容

前端入門篇（四十一）JS基礎8動態修改網頁內容(DOM操作)

ALINK(四十一)：模型評估（六）聚類評估 (EvalClusterBatchOp)

四十一、集合的巢狀

重新整理 .net core 實踐篇————跨域問題四十一]

NLP（四十一）：解決樣本不均衡FocalLoss與GHM

Jmeter(四十一) - 從入門到精通進階篇 - Jmeter配置檔案的刨根問底 - 下篇（詳解教程） Jmeter(四十一) - 從入門到精通進階篇 - Jmeter配置檔案的刨根問底 - 下篇（詳解教程）

yb課堂之使用者下單模組開發《十四》

yb課堂之實戰登陸模組開發整合Json Web Token《十》

yb課堂基於瀏覽器和node.js的http客戶端Axios 《三十四》

yb課堂實戰之首頁banner輪播圖和視訊詳情介面開發《四》

yb課堂實戰之LoginInterceptor註冊和放行路徑《十二》

yb課堂之個人資訊介面開發《十三》

yb課堂 使用者模組個人中心 《四十一》

PyPDF2

本文福利

相關推薦

yb課堂使用者模組個人中心《四十一》