20行Python程式碼實現一款永久免費PDF編輯工具的實現
PDF(Portable Document Format),中文名稱便攜文件格式是我們經常會接觸到的一種檔案格式,文獻、文件...很多都是PDF格式。它以格式穩定的優勢,使得我們在列印、分享、傳輸過程中能夠最優的保持原有色彩和格式。
PDF是以PostScript語言影象模型為基礎的一種文件格式,它在格式的穩定性方面雖然具有很大優勢。但是,在可編輯性方面卻為使用者引入了另外一個困擾。
例如,在文件的分割、合併、剪下、轉換、編輯等方面PDF就有些捉襟見肘了。
Adobe Reader、福昕閱讀器、熊貓PDF...經常用到的PDF工具只能用於文件閱讀,但是免費版都不可以用於文件編輯。雖然,網頁版PDF工具,例如SmallPDF、I love PDF可以用於PDF的編輯,但是對於文件大小也有限制。
曾經,為了替換PDF中的一頁,我幾乎試遍了所有市面上主流的PDF工具,最終還是不得不選擇使用付費工具來解決問題。
事後想了想,既然這些商業化軟體不靠譜,為什麼不考慮自己動手開發一款工具呢?明明幾十行程式碼能夠解決的問題,為什麼要費那麼多勁去下載、安裝那些沒有節操的軟體呢?
本文就來介紹一下利用Python輕鬆開發一款PDF編輯工具,可以用於PDF轉TxT、分割、合併、剪下、轉換。
PyPDF2
PyPDF2是一個第三方的python PDF庫,它能夠對PDF檔案進行分割、合併、裁剪和轉換頁面。
另外,它還可以對PDF檔案新增自定義資料、水印、密碼,也可以從PDF檔案中檢索出文本和元資料。
安裝
使用pip直接安裝:
$ pip install PyPDF2
下面就來演示幾項PDF編輯功能,並且會逐行解釋程式碼的含義。
刪除PDF頁
先給出實現程式碼,
from PyPDF2 import PdfFileWriter,PdfFileReader output = PdfFileWriter() // 1 input1 = PdfFileReader(open("example.pdf","rb")) // 2 def delete_pdf(index): pages = input1.getNumPages() // 3 for i in range(pages): if i+1 in index: continue output.addPage(input1.getPage(i)) // 4 outputStream = open("PyPDF2-output.pdf","wb") output.write(outputStream) // 5 delete_pdf([2,3,4])
下面來解釋一下程式碼中的幾個關鍵點:
- 宣告一個用於輸出PDF的例項;
- 讀取本地PDF檔案;
- 獲取PDF文件的頁數;
- 讀取PDF的第
i
頁,新增到輸出output
例項中; - 把編輯後的文件儲存到本地;
合併PDF
已經實現了刪除PDF頁,接下來就看一下如何把另外一個PDF中的頁面合併到當前PDF中。
方法1:
可以沿著前面刪除PDF頁的方式進行拓展一下,對PDF進行合併。
from PyPDF2 import PdfFileWriter,PdfFileReader output = PdfFileWriter() input1 = PdfFileReader(open("example.pdf","rb")) input2 = PdfFileReader(open("simple2.pdf","rb")) // 1 def merge_pdf(add_index,origin_index): pages = input1.getNumPages() k = 0 for i in range(pages): if i+1 in add_index: output.addPage(input2.getPage(origin_index[k])) // 2 pages += 1 k += 1 output.addPage(input1.getPage(i)) outputStream = open("PyPDF2-output.pdf","wb") output.write(outputStream) merge_pdf([2,4],[0,0])
讀取需要合併的原始檔;
遍歷到指定頁,合併源PDF的頁面;
方法2:
除了方法1,還有另外一種方法可以合併PDF:
from PyPDF2 import PdfFileMerger // 1 merger = PdfFileMerger() input1 = open("document1.pdf","rb") // 2 input2 = open("document2.pdf","rb") input3 = open("document3.pdf","rb") merger.append(fileobj = input1,pages = (0,3)) // 3 merger.merge(position = 2,fileobj = input2,1)) // 4 merger.append(input3) // 5 output = open("document-output.pdf","wb") merger.write(output)
- 匯入PyPDF2合併模組
PdfFileMerger
; - 讀取需要處理和合並的PDF文件;
- 從第一個PDF文件中取出需要合併的前3頁;
- 把第二個PDF文件的第一頁插入到文件中;
- 把第三個PDF文件附到輸出文件末尾;
除了上述介紹的2項主要功能,PyPDF2也有一些其他小功能:
旋轉
input1.getPage(1).rotateClockwise(90)
使得頁面1旋轉90度。
新增水印
page = input1.getPage(3) watermark = PdfFileReader(open("watermark.pdf","rb")) page.mergePage(watermark.getPage(0))
其中,水印儲存在另外一個PDF文件watermark.pdf
中。
加密
password = "secret" output.encrypt(password)
首先給一個secret
密碼,然後使用encrypt
對輸出文件進行加密。
pdfminer
前面介紹的PyPDF2主要擅長於PDF頁面級編輯,而對於文字和源資料級別編輯能力較弱。
所以,這裡就來介紹另外一款Python庫來彌補它的不足。
PDFMiner是一個PDF文件的文字提取工具,它具有如下特性:
- 能夠準確獲取文字的位置和佈局資訊;
- 可以將PDF轉換為HTML/XML等格式;
- 可以提取目錄;
- 可以提取標籤內容;
- 支援各種字型型別(Type1、TrueType、Type3和CID);
- 支援中、日、韓語言和垂直書寫文字;
安裝
$ pip install pdfminer
PDF轉TxT
pdfminer在GitHub的託管專案中,在目錄tools
下給出了一些實用的工具集,例如,PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下面命令提出PDF文件中的文字資訊。
$ pdf2txt.py samples/simple1.pdf
總結
通過上述2款Python庫,就可以實現從頁面到文字元資料的編輯,本文只是簡單的介紹了每項的基本用法。關於詳細的用法和函式列表,可以閱讀官方文件,或者閱讀GitHub上專案原始碼進行了解。此外,可以在這些基本的用法基礎上進行發散思維,發掘更多有價值的應用場景,例如,提出文字資料之後呼叫翻譯API進行文獻翻譯。也可以,對軟體進行封裝,開發成一款通用的PDF編輯工具。
到此這篇關於20行Python程式碼實現一款永久免費PDF編輯工具的實現的文章就介紹到這了,更多相關Python 免費PDF編輯工具內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!