Python讀取pdf文件 只讀文字的情況
阿新 • • 發佈:2019-02-12
# coding=utf-8
import pdfminer
#讀取pdf檔案
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfinterp import PDFPageInterpreter,PDFResourceManager
from pdfminer.pdfparser import PDFPage
fp=open("a.pdf","rb")#根據二進位制的方式讀取
#如果是url
#fp=request.urlopen(url)#網址
#建立與文件關聯的直譯器
parser=PDFParser(fp)
#建立一個pdf文件物件
doc=PDFDocument()
#連線直譯器和文件物件
parser.set_document(doc)
doc.set_parser(parser)
#對文件進行初始化
doc.initialize("")#檔案沒有密碼就是空字串
#建立一個pdf資源管理器
resouse=PDFResourceManager()
#建立一個引數分析器
lap=LAParams()
#建立一個聚合器
device=PDFPageAggregator(resouse,laparams=lap)
#建立一個頁面直譯器
interpreter=PDFPageInterpreter(resouse,device)
#開始讀取內容
for page in doc.get_pages():
#呼叫頁面直譯器來解釋
interpreter.process_page(page)
#使用聚合器來獲得內容
layout=device.get_result()
for out in layout:
if hasattr(out,"get_text"):
print(out.get_text())
import pdfminer
#讀取pdf檔案
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfinterp import PDFPageInterpreter,PDFResourceManager
from pdfminer.pdfparser import PDFPage
fp=open("a.pdf","rb")#根據二進位制的方式讀取
#如果是url
#fp=request.urlopen(url)#網址
#建立與文件關聯的直譯器
parser=PDFParser(fp)
#建立一個pdf文件物件
doc=PDFDocument()
#連線直譯器和文件物件
parser.set_document(doc)
doc.set_parser(parser)
#對文件進行初始化
doc.initialize("")#檔案沒有密碼就是空字串
#建立一個pdf資源管理器
resouse=PDFResourceManager()
#建立一個引數分析器
lap=LAParams()
#建立一個聚合器
device=PDFPageAggregator(resouse,laparams=lap)
#建立一個頁面直譯器
interpreter=PDFPageInterpreter(resouse,device)
#開始讀取內容
for page in doc.get_pages():
#呼叫頁面直譯器來解釋
interpreter.process_page(page)
#使用聚合器來獲得內容
layout=device.get_result()
for out in layout:
if hasattr(out,"get_text"):
print(out.get_text())