Python程式設計:讀取pdf、pptx、docx、xlsx檔案的頁數
阿新 • • 發佈:2019-01-03
安裝工具
pip install pdfplumber
程式碼示例
import pdfplumber
from pdfminer.pdfparser import PDFSyntaxError
def get_pdf_page(pdf_path):
try:
f = pdfplumber.open(pdf_path)
page = len(f.pages)
except PDFSyntaxError:
page = 0
return page
pptx
安裝工具
pip install python-pptx
程式碼示例
from pptx import Presentation
def get_pptx_page(pptx_path):
try:
p = Presentation(pptx_path)
page = len(p.slides)
except KeyError:
page = 0
return page
docx、xlsx
Word是流動分頁的,檔案內容本身並不儲存分頁結果。具體分頁時斷在哪裡、最後分出多少頁,都需要現場渲染所有的圖文內容之後才能確定。
Word檔案中僅包含了一行一行的文字,與頁面設定中指定的頁面尺寸。
Word每次開啟檔案時都會一行一行“擺放”文字資料,發現一頁裝不下了自動新開一頁
所以,讀取頁數是不對的
參考