PyPDF2讀取PDF檔案內容儲存到本地TXT例項

阿新 • • 發佈：2020-05-14

我就廢話不多說了，大家還是直接看程式碼吧！

from PyPDF2.pdf import PdfFileReader
import pandas as pd

def Pdf_to_txt(pdf):

  for i in range(0,pdf.getNumPages()):
    title = []
    lin1,lin2,lin3,lin4,lin5,lin6,lin7,lin8 = [],[],[]
    extractedText = pdf.getPage(i).extractText()
    text = extractedText.split('\n')
    num = 0
    for lin in text:
      if num == 0:
        title.append(lin)
      elif num == 1:
        lin1.append(lin)
      elif num == 2:
        lin2.append(lin)
      elif num == 3:
        lin3.append(lin)
      elif num == 4:
        lin4.append(lin)
      elif num == 5:
        lin5.append(lin)
      elif num == 6:
        lin6.append(lin)
      elif num == 7:
        lin7.append(lin)
      elif num == 8:
        lin8.append(lin)
        num = 0
      num += 1
    Lin_num = len(lin8)
    data = {'Lin1': lin1[:Lin_num],'Lin2': lin2[:Lin_num],'Lin3': lin3[:Lin_num],'Lin4': lin4[:Lin_num],'Lin5': lin5[:Lin_num],'Lin6': lin6[:Lin_num],'Lin7': lin7[:Lin_num],'Lin8': lin8[:Lin_num]}
    df = pd.DataFrame(data,columns=['Lin1','Lin2','Lin3','Lin4','Lin5','Lin6','Lin7','Lin8'])
    file_name = title[0] + '_page' + str((i + 1))
    df.to_csv('tool/pdf解析/%s.txt' % file_name,index=False,sep='\t')


if __name__ == '__main__':
  filename = 'E:/SVN/採集框架V2/analyse_code/政策/pdf/con026465.pdf'
  pdf = PdfFileReader(open(filename,"rb"))
  Pdf_to_txt(pdf)

補充知識：使用PyPDF2庫對pdf檔案進行指定頁面刪除操作

平臺：win10家庭版，python 3.7，PyPDF2

思維過程：

方法一：將pdf檔案通過拆分為單頁，放入一個資料夾，再刪除其中不要的檔案，最後再把剩餘的檔案進行合併為一個pdf檔案

第一步：使用原檔案路徑建立新資料夾，用於存放拆分後的單頁檔案

def newdir(self,path):
     self.new = os.path.splitext(path)[0]
     if not os.path.isdir(self.new): #使用os.path.isdir判斷資料夾是否存在，
       os.mkdir(self.new)

第二步：生成單頁檔案，並存放到新建的資料夾

def pdfsplt(self,path):
          if os.path.isfile(path):
              file_1 = open(path,"rb")
              file_reader = PyPDF2.PdfFileReader(file_1,strict=False) #使用strict關閉錯誤提示
              #使用for迴圈讀取每一頁並將其寫入新pdf檔案，檔案以頁碼命名
              for page in range(0,file_reader.getNumPages()):
                file_write = PyPDF2.PdfFileWriter()
                pageobj = file_reader.getPage(page)
                file_write.addPage(pageobj)
                output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
                with open(output,"wb") as output_pdf:
                    file_write.write(output_pdf)
              file_1.close()
          else:
              print("檔案不存在！")
             time.sleep(3)
              exit()

第三步：刪除資料夾中不要的檔案

def pdfremove(self,number):
  for pag in number:
    filename = str(self.new) + "\\" + str(pag) + ".pdf"
    if os.path.isfile(filename):
      os.unlink(filename)
    else:
      print("請確認要刪除的頁碼%s是否正確！！"%pag)

第四步：把剩餘檔案合併為一個pdf檔案

def pdfmerge(self):
  file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #讀取新建資料夾下的所有檔案並提取檔名轉為數字
  file_write = PyPDF2.PdfFileWriter() #先建立一個新的pdf物件
  for page in sorted(file_list):
    pathstr = str(self.new) + "\\" + str(page) + ".pdf"
    file_1 = open(pathstr,"rb")
    file_reader = PyPDF2.PdfFileReader(file_1,strict=False) # 使用strict關閉錯誤提示
    pageobj = file_reader.getPage(0)
    file_write.addPage(pageobj)
    output = str(self.new) + "_new.pdf"
    with open(output,"wb") as output_pdf:
      file_write.write(output_pdf)
      print("第%s頁完成"%page)
    file_1.close()

第五步：刪除其中的快取資料夾

def rmdir(self):
  if os.path.isdir(self.new):
    shutil.rmtree(self.new)

方法一的完整程式碼：

import PyPDF2
import os,time,shutil,sys
import threading

class mypdf(object):
  def __init__(self,path,number):
    self.newdir(path)
    self.pdfsplt(path)
    self.pdfremove(number)
    self.pdfmerge()
    self.rmdir()
    pass

  #用於建立一個獨立的資料夾，存放快取資料
  def newdir(self,path):
    self.new = os.path.splitext(path)[0]
    if not os.path.isdir(self.new): #使用os.path.isdir判斷資料夾是否存在，
      os.mkdir(self.new)

  #將每一頁生成獨立檔案，存放到快取資料夾
  def pdfsplt(self,path):
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1,strict=False) #使用strict關閉錯誤提示
      #使用for迴圈讀取每一頁並將其寫入新pdf檔案，檔案以頁碼命名
      for page in range(0,file_reader.getNumPages()):
        file_write = PyPDF2.PdfFileWriter()
        pageobj = file_reader.getPage(page)
        file_write.addPage(pageobj)
        output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
        with open(output,"wb") as output_pdf:
          file_write.write(output_pdf)
      file_1.close()
    else:
      print("檔案不存在！")
      time.sleep(3)
      exit()

  #刪除快取資料夾中的不要的頁
  def pdfremove(self,number):
    for pag in number:
      filename = str(self.new) + "\\" + str(pag) + ".pdf"
      if os.path.isfile(filename):
        os.unlink(filename)
      else:
        print("請確認要刪除的頁碼%s是否正確！！"%pag)

  #將快取資料夾中的剩餘檔案合進行合併
  def pdfmerge(self):
    file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #讀取新建資料夾下的所有檔案並提取檔名轉為數字
    file_write = PyPDF2.PdfFileWriter() #先建立一個新的pdf物件
    for page in sorted(file_list):
      pathstr = str(self.new) + "\\" + str(page) + ".pdf"
      file_1 = open(pathstr,strict=False) # 使用strict關閉錯誤提示
      pageobj = file_reader.getPage(0)
      file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output,"wb") as output_pdf:
        file_write.write(output_pdf)
        print("第%s頁完成"%page)
      file_1.close()

  def rmdir(self):
    if os.path.isdir(self.new):
      shutil.rmtree(self.new)

if __name__ == "__main__":
  #通過第一個引數獲取待處理的檔案，第二個引數到以後為刪除的頁碼
  path = sys.argv[1]
  number = sys.argv[2:]
  mypdf = mypdf(path,number)
  def f(path,number):
    mypdf(path,number)
  threading.Thread(target=f,args=[path,number])

方法二：在寫入新檔案時使用if判斷進行篩選出不要的頁面

想法一、將讀取與寫入同時處理。使用if判斷篩選不要的頁面

def pdfsplt(self,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,strict=False) #使用strict關閉錯誤提示
      file_write = PyPDF2.PdfFileWriter()
      #使用for迴圈讀取每一頁並將其寫入新pdf檔案，檔案以頁碼命名
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
          output = str(self.new) + "_new.pdf"
          with open(output,"wb") as output_pdf: 
            file_write.write(output_pdf)
      file_1.close()
    else:
      print("檔案不存在！")
      time.sleep(3)
      exit()

想法二、將資料先全部放入記憶體，最後在寫入，來提高速度：

def pdfsplt(self,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output,"wb") as output_pdf: #將內容全部放入記憶體，最後寫入，提高處理速度
        file_write.write(output_pdf)
      file_1.close()
    else:
      print("檔案不存在！")
      time.sleep(3)
      exit()

方法二的完整程式碼：

import PyPDF2
import os,number):
    self.new = os.path.splitext(path)[0] #獲取檔案的路徑
    self.pdfsplt(path,number)
    pass

#迴圈每一頁讀入記憶體，最後寫入檔案
  def pdfsplt(self,"wb") as output_pdf: #將內容全部放入記憶體，最後寫入，提高處理速度
        file_write.write(output_pdf)
      file_1.close()
    else:
      print("檔案不存在！")
      time.sleep(3)
      exit()

if __name__ == "__main__":
  #通過第一個引數獲取待處理的檔案，第二個引數到以後為刪除的頁碼
  path = sys.argv[1]
  number = sys.argv[2:]
  number = list(map(int,number))
  mypdf = mypdf(path,number])

兩種方法的比較：

	方法一	方法二中的第一種想法	方法二中的第二種想法
執行速度	慢	較慢	快
程式碼量	65行	34行	34行

缺點：

方法一在處理掃描的pdf檔案時，執行速度太慢，不能實現範圍性的刪除。

方法二不能實現範圍性的刪除

以上這篇PyPDF2讀取PDF檔案內容儲存到本地TXT例項就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

PyPDF2讀取PDF檔案內容儲存到本地TXT例項

我就廢話不多說了，大家還是直接看程式碼吧！ from PyPDF2.pdf import PdfFileReader import pandas as pd

java讀取pdf檔案內容

使用JAVA從PDF中獲取文字資訊，目前只能讀取文字型PDF。圖片型PDF尚在研究 1.匯入Maven依賴

怎麼讀取h5檔案內容_html讀取本地檔案內容

技術標籤：怎麼讀取h5檔案內容第一步，獲取檔案資訊 <input type="file"/>

Python實現PyPDF2處理PDF檔案的方法示例

實際應用中，可能會涉及處理 pdf 檔案，PyPDF2 就是這樣一個庫，使用它可以輕鬆的處理 pdf 檔案，它提供了讀，割，合併，檔案轉換等多種操作。

python3用PyPDF2解析pdf檔案,用正則匹配資料方式

我就廢話不多說了，大家還是看程式碼吧！ import PyPDF2 import re pdf_file = open(\'xxx.pdf\',mode=\'rb\')

Python 讀取Excel檔案內容【轉載】

import xlrd class ReadExcel: def __init__(self, file_path): try: self.book = xlrd.open_workbook(file_path)

Python+Selenium中級篇之4-封裝一個自己的類-瀏覽器引擎類/Python讀取配置檔案內容

封裝一個自己的類-瀏覽器引擎類前一篇文章我們知道了，如何去封裝幾個簡單的Selenium方法到我們自定義的類，這次我們編寫一個類，叫瀏覽器引擎類，通過更改一個字串的值，利用if語句去判斷和控制啟動那個瀏覽器。這

java讀取excel檔案內容

原文連結： https://www.cnblogs.com/bretgui/p/10156141.html 1.匯入依賴JAR包

C#讀取配置檔案內容

1.讀取appsettings.json 　　1)配置檔案 { \"Logging\": { \"LogLevel\": { \"Default\": \"Warning\" } },

解決springboot 多執行緒使用MultipartFile讀取excel檔案內容報錯問題

springboot專案開啟多執行緒啟動類加註解開啟 @EnableAsync，實現類方法加註解 @Async

pyspark讀取pickle檔案內容並存儲到hive

在平常工作中，難免要和大資料打交道，而有時需要讀取本地檔案然後儲存到Hive中，本文接下來將具體講解。

Android中從assets資源中讀取圖片檔案並儲存到內部儲存器並載入顯示在ImageView中

場景 Android系統為每個新設計的程式提供了/assets目錄，這個目錄儲存的檔案可以打包在程式裡。/res和/assets的不同點是，android不為/assets下的檔案生成ID。如果使用/assets下的檔案，需要指定檔案的路徑和檔名。a

SpringBoot+讀取properties檔案內容並注入到類屬性中

第一種方法，以傳送簡訊功能為例： 1.application.properties檔案： sms.host=http://dingxin.market.alicloudapi.com

C#讀取PDF檔案

LicenseHelper.ModifyInMemory.ActivateMemoryPatching(); Document pdfDocument = new Document("13.pdf");

PDF檔案內容解析

1、引用 spire.pdf元件，NuGet下載PDF解析元件者是收費的。這裡推薦官方有免費版，spire.pdf，但只能解析前幾頁。官方網址： https://www.e-iceblue.cn/Downloads/Spire-PDF-NET.html

java讀取大檔案內容到Elasticsearch分析（手把手教你java處理超大csv檔案）

package com.example.demo; import com.alibaba.fastjson.JSON; import com.example.demo.entity.Entity; import org.apache.commons.io.FileUtils;

Python 讀取PDF檔案為文字字元並轉換為音訊

【閱讀全文】設計思路：首先通過PyPDF2非標準庫提供的介面函式將PDF檔案中的文字提取出來，然後，再使用pyttsx3非標準庫將文字轉換為音訊檔案。

c語言讀取txt檔案內容簡單例項

在C語言中，檔案操作都是由庫函式來完成的。要讀取一個txt檔案，首先要使用檔案開啟函式fopen（）。

Java讀取介面中的資料，並儲存到txt檔案中！

//建立讀取介面中資料的方法 public static String read() { URL url = null; BufferedReader reader = null;

Java對本地檔案內容讀取、修改、刪除的操作

import org.apache.commons.lang.StringUtils; import java.io.*; import java.util.HashMap; import java.util.Map;

PyPDF2讀取PDF檔案內容儲存到本地TXT例項

相關推薦