Python解析pdf轉為TXT格式

阿新 • • 發佈：2018-12-31


#完成pdf到TXT轉變了，無法完成TXT到Excel轉變

import xlwt  # 寫入檔案
import xlrd  # 開啟excel檔案
from xlutils.copy import copy

import os
import re
import sys
import importlib
import threading

importlib.reload(sys)
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

import logging

# 解析PDF檔案，轉為txt格式
def parsePDF(PDF_path, TXT_path):
    with open(PDF_path, 'rb')as fp:  # 以二進位制讀模式開啟
        praser = PDFParser(fp)  # 用檔案物件來建立一個pdf文件分析器
        doc = PDFDocument()  # 建立一個PDF文件
        praser.set_document(doc)  # 連線分析器與文件物件
        doc.set_parser(praser)

        # 提供初始化密碼
        # 如果沒有密碼 就建立一個空的字串
        doc.initialize()

        # 檢測文件是否提供txt轉換，不提供就忽略
        if not doc.is_extractable:
            raise PDFTextExtractionNotAllowed
        else:
            rsrcmgr = PDFResourceManager()  # 建立PDf 資源管理器 來管理共享資源
            laparams = LAParams()  # 建立一個PDF裝置物件
            device = PDFPageAggregator(rsrcmgr, laparams=laparams)
            interpreter = PDFPageInterpreter(rsrcmgr, device)  # 建立一個PDF直譯器物件

            # 迴圈遍歷列表，每次處理一個page的內容
            for page in doc.get_pages():  # doc.get_pages() 獲取page列表
                interpreter.process_page(page)
                layout = device.get_result()  # 接受該頁面的LTPage物件
                # 這裡layout是一個LTPage物件 裡面存放著 這個page解析出的各種物件 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要獲取文字就獲得物件的text屬性，
                for x in layout:
                    #print(x)
                    if isinstance(x, LTTextBoxHorizontal):
                        with open(TXT_path, 'a', encoding='UTF-8', errors='ignore') as f:
                            results = x.get_text()
                            #print(results)
                            f.write(results + '\n')
PDF_path = '/Users/apple/Documents/ST/python/簡歷.pdf'


TXT_path = '/Users/apple/Documents/ST/python/簡歷.txt'

parsePDF(PDF_path, TXT_path)

解析後格式不對，需要調整

Python解析pdf轉為TXT格式

#完成pdf到TXT轉變了，無法完成TXT到Excel轉變 import xlwt # 寫入檔案 import xlrd # 開啟excel檔案 from xlutils.copy import copy import os import re import sys import impo

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

我們接觸到的很多文件資料都是以pdf格式存在的，比如：論文，技術文件，標準檔案，書籍等。pdf格式使得用機器從中提取資訊格外困難。為了解決這個問題，我找到了幾種解決方案，最後選擇了python上的pdfplumber庫，安裝和使用都相對比較方便，效果也還不錯，所以下面介紹這個庫的安裝與使用。安裝我的電

python 解析pdf文件的首、尾頁

1.如何解析指定頁面而不是文件的全部？ 2.利用哪些三方庫？一、PDF文件解析 1.將輸入尾的文件提取出首頁和尾頁（import PyPDF2 ） def getdespdf(self,path): # print(

python解析PDF文件

1.安裝 pip install pdfminer3k 2. python讀取PDF文件程式碼分析　　PDF格式不是規範格式. 儘管它被叫做"PDF文件", 但並不像word或者html文件。PDF的表現更像一張圖片。PDF更像是在一張紙的各個準確的位置上把內容都擺放出來。大部分

利用python清理CSV和txt格式資料（附程式碼）

下面程式碼主要包括CSV以及txt檔案的讀寫和清理（將離散變數用數字代替） # -*- coding: utf-8 -*- import numpy as np import pandas as pd def loadData(filename): '''

將三星手機備忘錄vnt格式檔案轉為txt格式備份

最近想把手機上的備忘錄匯出到電腦上備份，結果發現匯出來的並不是txt格式，而是三星自己的vnt格式。於是自己用java寫了幾行程式碼把它轉為txt格式用於備份。留著以後備份的時候用。 import java.io.BufferedReader; import java.io

python將一個txt文件的內容轉為字典格式/將字典格式儲存到txt文件中

# -*- encoding: gbk -*- def load_dict_from_file(filepath): _dict = {} try: with

Python實現ParseDuration-支持解析字符串格式的時間單位，例如將小時或者分鐘數轉換為秒

AC let invalid python代碼 leading fig onf 字符 sca python的time模塊不支持單獨將字符串格式的分鐘數和小時數轉換為秒，比如將“5m”轉換為“300”(秒)，不支持將“0.2h5.1m12.123s”轉換為“1038.123”

python解析csv格式資料入庫

【1】匯入csv包 import csv 【2】讀取csv檔案路徑 def getExcelData(): try: csvx_list = glob.glob(r'F:\公司專案\2018年專案\中加app\資料\

python pandas實現excel轉為html格式

#!/usr/bin/env Python # coding=utf-8 import pandas as pd import codecs xd = pd.ExcelFile('/Users/wangxingfan/Desktop/1.xlsx') df = xd.parse() wi

python 儲存資料為excel格式和txt格式

excel 儲存方法： book = xlwt.Workbook() #建立表單 sheet = book.add_sheet(u'sheet1',cell_overwrite_ok=True) sheet.write(0,0,'id') sheet.write(0,1,'tex

Python：解析PDF文字及表格——pdfminer、tabula、pdfplumber 的用法及對比

pdf 是個異常坑爹的東西，有很多處理 pdf 的庫，但是沒有完美的。一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本，主要用於讀取 pdf 中的文字。網上有很多 pdfminer3k 的程式碼示例，看過以後，只想吐槽一下，太複雜了，有違 python

Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及對比

bubuko class ota ces manage 數據源碼 elif 便是 pdf 是個異常坑爹的東西，有很多處理 pdf 的庫，但是沒有完美的。一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本，主要用於讀取 pdf

深入學習Python解析並解密PDF檔案內容的方法

　　前面學習瞭解析PDF文件，並寫入文件的知識，那篇文章的名字為深入學習Python解析並讀取PDF檔案內容的方法。　　但是最近出現了一個新問題，就是上面使用pdfminer這個庫只能解析正常的PDF內容，然而在實際情況中，公司的一些文件可能是加密的，那麼如何處理加密的PDF檔案，就是本文學習的重點。　

python實戰-pdf檔案轉txt之類的文字可編輯型別檔案

背景：最近剛好需要將一個pdf的內容打出來，這是個比較枯燥的內容，而且pdf裡面的文字明顯是規範的，所以想寫個指令碼讀取內容，直接複製貼上。剛好，python的理念就是不重複造輪子，這樣的包自然是有的，這個指令碼最主要的包就是pdfminer3k。 1.思路解析出文件，

製作英文學習詞典。編寫程式製作英文學習詞典，詞典有3個基本功能：新增、查詢和退出。程式讀取原始檔路徑下的txt格式詞典檔案，若沒有就建立一個（Python）

以下路徑可更換為你自己的路徑，本程式採用Python語言大致實現了serach()查詢函式和add()新增函式。細節有待完善，謝謝 def search(): w=input("請輸入要查詢的單詞:") fr=open("C:\\Users

手機怎樣將PDF轉為Word可編輯格式，超實用的方法

辦公是都需要用到Word、Excel、PPT、PDF，Word轉PDF就像家常便飯一樣，PPT轉PDF一樣順溜，但是PDF轉Word很多人都不會嘍，轉換為PDF簡單，PDF檔案轉換就沒那麼容易了，今天小編就給大家分享一個小妙招。一:準備工作: 先把手機連線上網

txt格式文字解析（注意：編碼格式必須是UTF-8）

資料內容： { "code": 200, "message": "操作成功", "data":{ "carid":"1" "action0":"1" "action1":"1" "action2":"0"

能將pdf完美轉換成txt格式的方法

　 pdf運用得到了推廣，所以在很多場合我們都可能遇到一些pdf文件，使用直接複製的方式沒有辦法將裡面的文字內容複製出來，仔細檢查發現，主要的原因是由於pdf文件本身是圖片，這類文件當然不能直接複製內容了。這個時候很多人會想這個很簡單，實現將圖片格式pdf檔案轉換成

windows下用Python把pdf檔案轉化為圖片(png格式)

最近工作中需要把pdf檔案轉化為圖片，想用python來實現，於是在網上找啊找啊找啊找，找了半天，倒是找到一些程式碼。 1、第一個找到的程式碼，我試了一下好像是反了，只能實現把圖片轉為pdf，而不能

Python解析pdf轉為TXT格式

相關推薦