Python讀取pdf文件只讀文字的情況

阿新 • • 發佈：2019-02-12

# coding=utf-8
import pdfminer
#讀取pdf檔案
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfinterp import PDFPageInterpreter,PDFResourceManager
from pdfminer.pdfparser import PDFPage
fp=open("a.pdf","rb")#根據二進位制的方式讀取
#如果是url
#fp=request.urlopen(url)#網址
#建立與文件關聯的直譯器
parser=PDFParser(fp)
#建立一個pdf文件物件
doc=PDFDocument()
#連線直譯器和文件物件
parser.set_document(doc)
doc.set_parser(parser)

#對文件進行初始化
doc.initialize("")#檔案沒有密碼就是空字串
#建立一個pdf資源管理器
resouse=PDFResourceManager()
#建立一個引數分析器
lap=LAParams()
#建立一個聚合器
device=PDFPageAggregator(resouse,laparams=lap)
#建立一個頁面直譯器
interpreter=PDFPageInterpreter(resouse,device)
#開始讀取內容
for page in doc.get_pages():
#呼叫頁面直譯器來解釋
interpreter.process_page(page)
#使用聚合器來獲得內容
layout=device.get_result()
for out in layout:
if hasattr(out,"get_text"):

print(out.get_text())

Python讀取pdf文件只讀文字的情況

# coding=utf-8 import pdfminer #讀取pdf檔案 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfmin

python讀取pdf文件-實戰

# -*- coding: utf-8 -*- #讀取pdf文件 from pdfminer.converter import PDFPageAggregator from pdfminer.layou

python 讀取配置文件

python 讀取配置文件讀取方法： def get(section,option): cp = ConfigParser.SafeConfigParser() cp.read(os.path.split(os.path.realpath(__file__))[] + )

python 讀取大文件

treat pan 出現擔心 code including open hand you 要讀取個大文件，文件大概是3G左右，擔心read會出現內存溢出的情況，網上找了個靠譜的用法： with open(...) as f: for line in f:

python讀取json文件報 No JSON object could be decoded

() col 可用 dep urn geojson log object could def load(): with open(‘D:\\jiance.geojson‘) as json_file: data = json.load(json_f

python讀取table文件

python table linecache header 有個table文件，有時候需要處理header ，可以用linecache 模塊#!/usr/bin/env python # -*- coding: ascii -*- import linecache import filei

python讀取json文件轉成excel

dex with index odi 讀取 while cell with open __main__ python處理excel有xlwt，openpyxl等，而xlwt只支持excel2003，也就是最多有256列，而openpyxl則支持excel2007以上，最多6

python 讀取libsvm文件

class open dex app stop all ids pos dataset 以下三種方式 # -*- coding:utf-8 -*- import numpy as np import os from sklearn import datasets

python 讀取大文件越來越慢（判斷 key 在 map 中，千萬別用 in keys()）

方案使用 tail 千萬上傳 true 文件夾 blog alt 背景：今天樂樂姐寫代碼，讀取一個四五百兆的文件，然後做一串的處理。結果處理了一天還沒有出來結果。問題出在哪裏呢？解決： 1. 樂樂姐打印了在不同時間點的時間，直接print time() 即可。發

Unity3D讀取PDF文件內容

讀取直接 min posit rec unity3d gettext fim write 最近在研究Unity3D中讀取PDF的內容，預想了三種方案，一是用Java來實現，二是調用C#的iTextSharp庫或者PDFBox庫來實現，三是下載PDF Renderer插件（

pdf.js如何跨域讀取pdf文件？

earch decode sed 廣州新一代 pla ont end php服務器 ech 今天，上線一個客戶網站之後（使用的是廣州新一代虛擬空間）發現在讀取上傳的pdf文件的時候讀取錯誤，通過直接在瀏覽器輸入文件地址的時候發現文件地址被重定向了（呵呵！），結果就是pdf文

Python讀取指定文件夾下的文件

for 指定 append color return Coding user 一個元組 1 # -*- coding: utf-8 -*- 2 import csv 3 import os 4 import pandas as pd 5 #提取文件夾下的地址+

Python 讀取 excel 文件

user top 讀取 value odi excel文件 utf mil 獲取現在大部分數據都是存儲在excel中或直接調取數據庫，作為剛剛自學Python的小白來說怎麽讀取文件還是比較懵的，現在對Python讀取excel文件進行了一些整理： #coding=utf

關於python讀取 json文件轉dict錯誤問題

encoding lin dict java python 發現 ava inux 支持晚上到家10點老大突然說有東西解決不了說python 讀取java生成的json文件字符編碼出問題爬起來開電腦弄了好久試過了 with open rb encoding=ut

python讀取/寫入文件

遍歷文件方式字符 test code 筆記 python 入門 ins 《Python編程：從入門到實踐》讀書筆記 1.讀取文件並且對文件內容進行打印有三種方式： with open(‘test.txt‘) as fo: for lins in fo:

python讀取大文件的方法

href 形式 art source logs 簡單 body med tle python計算文件的行數和讀取某一行內容的實現方法：最簡單的辦法是把文件讀入一個大的列表中,然後統計列表的長度.如果文件的路徑是以參數的形式filepath傳遞的,那麽只用一行代碼就可以

python讀取大文件和普通文件

readlines error 如何 lines bsp utf span 異常 spa 讀取文件，最常見的方式是： with open(‘filename‘, ‘r‘, encoding = ‘utf-8‘) as f: for line in f.readli

python 解析pdf文件的首、尾頁

1.如何解析指定頁面而不是文件的全部？ 2.利用哪些三方庫？一、PDF文件解析 1.將輸入尾的文件提取出首頁和尾頁（import PyPDF2 ） def getdespdf(self,path): # print(

python開啟pdf文件

不要用 os.system() 會因為系統語言和中文導致失敗 #coding=utf-8 import os import sys import win32api import win32process import time import win32event i

使用python讀取yaml文件

app orm 取出 font app測試 for spa android bsp 在做APP測試時，通常需要把參數存到一個字典變量中，這時可以將參數寫入yaml文件中，再讀取出來。新建yaml文件(android_caps.yaml)，文件內容為： 1 platf