PDF檔案轉換為TXT檔案

阿新 • • 發佈：2021-06-17

PDF檔案轉換為TXT檔案

import sys
import importlib
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import glob
import re

importlib.reload(sys)


def get_file_name(path_string):
    """獲取檔名稱"""
    pattern = re.compile(r'([^<>/\\\|:""\*\?]+)\.\w+$')
    data = pattern.findall(path_string)
    if data:
        return data[0]


def parse(text_path):
    """解析PDF文字，並儲存到TXT檔案中"""
    pdfname = get_file_name(text_path)
    fp = open(text_path, 'rb')  # 'rb'表示解讀為二進位制資料
    # 用檔案物件建立一個PDF文件分析器
    parer = PDFParser(fp)
    # 建立一個PDF文件
    doc = PDFDocument()
    # 連線分析器，與文件物件--也就說內容與載體連線
    parer.set_document(doc)
    doc.set_parser(parer)

    # 提供初始化密碼，如果沒有密碼，就建立一個空的字串
    doc.initialize()

    # 檢測文件是否提供txt格式轉化，不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 建立PDF，資源管理器，來共享資源
        rsrcmgr = PDFResourceManager()
        # 建立一個PDF裝置物件
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 建立一個PDF解釋其物件
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # 迴圈遍歷列表，每次處理一個page內容
        # doc.get_pages() 獲取pages列表
        for page in doc.get_pages():
            interpreter.process_page(page)
            # 接受該頁面的LTPage物件
            layout = device.get_result()
            # 這裡layout是一個LTpage物件，裡面存放著這個page解析出的各種物件
            # 一般包括LTTextBox,LTFigure,LTImage,LTTextHorizontal等等
            # 想要獲得文字就獲得物件的text屬性
            for x in layout:
                if (isinstance(x, LTTextBoxHorizontal)):
                    with open(r"../paperchangtxt1/"+pdfname+".txt", 'a', encoding='utf-8') as f:
                        results = x.get_text()
                        # return results
                        f.write(results + '\n')


if __name__ == '__main__':
    pdf_path = r'C:\Users\黃某人\Desktop\ICCV2019'
    pdfs = glob.glob("{}/*.pdf".format(pdf_path))
    list = []
    for pdf in pdfs:
        # parse(pdf_path)
        print(pdf)
        try:
            parse(pdf)
        except:
            list.append(pdf)
    with open(r"../log/list_url.txt", 'a', encoding='utf-8') as f:
        # return results
        sep = ';'
        f.write(sep.join(list))

PDF檔案轉換為TXT檔案

PDF檔案轉換為TXT檔案 import sysimport importlibfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import

python實現npy格式檔案轉換為txt檔案操作

如下程式碼會將npy的格式資料讀出，並且輸出來到控制檯： import numpy as np ##設定全部資料，不輸出省略號

TensorFlow實現checkpoint檔案轉換為pb檔案

由於專案需要，需要將TensorFlow儲存的模型從ckpt檔案轉換為pb檔案。 import os from tensorflow.python import pywrap_tensorflow

PyQt5如何將.ui檔案轉換為.py檔案的例項程式碼

PyQt5之如何將.ui檔案轉換為.py檔案一、通過Eric6把.ui檔案轉換為.py檔案 1、首先開啟Eric6編輯器，切換到“窗體”選項卡，然後選中需要轉換的.ui檔案，單擊滑鼠右鍵，選擇“編輯窗體”就可以了。（具體步驟如下圖）

C語言 fastq檔案轉換為fasta檔案

目前只能處理短序列，若要處理長序列，可按照https://www.cnblogs.com/mmtinfo/p/13036039.html的讀取方法。

ipynb檔案轉換為py檔案

技術標籤：pythonlinuxjavaubuntu大資料 jupyter提供了這個轉換功能，執行jupyter notebook，執行後將開啟一個網頁

使用python把xmind檔案轉換為xlsx檔案測試用例

用例的格式可以自己修改import xlwt,xlrdfrom xmindparser import xmind_to_dictfrom openpyxl.styles import Fontfrom openpyxl import load_workbookdef resolvePath(dict,lists,title):# title去除首尾空格title

如何將Excel檔案轉換為 .plist 檔案或 .sqlite 資料庫？

DataGenerator for Excel Mac破解：點此獲取如何將Excel檔案轉換為 .plist 檔案或 .sqlite 資料庫？試試這款DataGenerator for Excel 輕量級的轉換工具吧！幫助開發者提高開發效率。在開發 iOS 或其他應用程式時，

npy檔案轉換為hdf5檔案

。 def npy2hdf(path1,path2): i3d_name_list = os.listdir(path1) resnet200_name_list = os.listdir(path2)

python 如何將office檔案轉換為PDF

在平時的工作中，難免需要一些小Tip 來解決工作中遇到的問題，今天的文章給大家安利一個方便快捷的小技巧，將 Office（doc/docx/ppt/pptx/xls/xlsx）檔案批量或者單一檔案轉換為 PDF 檔案。不過在做具體操作之前需

Python3將資料儲存為txt檔案的方法

Python3將資料儲存為txt檔案的方法，具體內容如下所示： f = open(\"data/model_Weight.txt\",\'a\')#若檔案不存在，系統自動建立。\'a\'表示可連續寫入到檔案，保留原內容，在原

[NLP]搜狗詞典轉換成txt檔案

將搜狗的scel檔案轉換成txt格式，從網站上copy的，但是忘記是哪個網站了。#!/bin/python

文章要儲存為TXT檔案，其中的圖片要怎麼辦？Python幫你解決

前言用 python 爬取你喜歡的 CSDN 的原創文章，儲存為TXT檔案，不僅檢視不方便，而且還無法儲存文章中的程式碼和圖片。

索尼釋出 HEIF Converter 軟體：可將 A7S3 的 HEIF 檔案轉換為 JPEG

10 月 12 日訊息根據索尼官方的訊息，索尼現已釋出 HEIF Converter 軟體，可將使用索尼微單 Alpha 7S III 拍攝的 HEIF 檔案轉換為 JPEG 或 TIFF 檔案的應用程式。

音訊位元率_將音訊檔案轉換為更高的位元率有意義嗎？

音訊位元率 When converting audio files, it would make sense to avoid converting into a higher bitrate, as it is commonly understood that you can never recapture data lost in a previou