pdf 轉 word

阿新 • • 發佈：2020-12-01

程式設計環境：
attrs==17.4.0
lxml==4.1.1
pdfminer3k==1.3.1
pluggy==0.6.0
ply==3.11
py==1.5.2
pytest==3.4.1
python-docx==0.8.6
six==1.11.0

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from docx import Document

document = Document()


def parse():
    # rb以二進位制讀模式開啟本地pdf檔案
    fn = open('./111.pdf', 'rb')
    # 建立一個pdf文件分析器
    parser = PDFParser(fn)
    # 建立一個PDF文件
    doc = PDFDocument()
    # 連線分析器 與文件物件
    parser.set_document(doc)
    doc.set_parser(parser)

    # 提供初始化密碼doc.initialize("lianxipython")
    # 如果沒有密碼 就建立一個空的字串
    doc.initialize("")
    # 檢測文件是否提供txt轉換，不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed

    else:
        # 建立PDf資源管理器
        resource = PDFResourceManager()
        # 建立一個PDF引數分析器
        laparams = LAParams()
        # 建立聚合器,用於讀取文件的物件
        device = PDFPageAggregator(resource, laparams=laparams)
        # 建立直譯器，對文件編碼，解釋成Python能夠識別的格式
        interpreter = PDFPageInterpreter(resource, device)
        # 迴圈遍歷列表，每次處理一頁的內容
        # doc.get_pages() 獲取page列表
        for page in doc.get_pages():
            # 利用直譯器的process_page()方法解析讀取單獨頁數
            interpreter.process_page(page)
            # 使用聚合器get_result()方法獲取內容
            layout = device.get_result()
            # 這裡layout是一個LTPage物件,裡面存放著這個page解析出的各種物件
            for out in layout:
                # 判斷是否含有get_text()方法，獲取我們想要的文字
                if hasattr(out, "get_text"):
                    # print(out.get_text(), type(out.get_text()))
                    content = out.get_text().replace(u'\xa0', u' ')  # 將'\xa0'替換成u' '空格，這個\xa0就是&nbps空格
                    # with open('test.txt','a') as f:
                    #     f.write(out.get_text().replace(u'\xa0', u' ')+'\n')
                    document.add_paragraph(
                        content, style='ListBullet'  # 新增段落，樣式為unordered list型別
                    )
                document.save('./111.docx')  # 儲存這個文件


if __name__ == '__main__':
    parse()

媳婦兒讓我給她找一個PDF轉word免費工具，找了半天我決定給她寫一個出來^-^

之前我媳婦兒讓我給她找一個PDF轉WORD的免費工具，在網上找了半天發現要不就是收費，要不就是轉化的格式混亂。既然網上不能找到好用的免費工具那就直接來寫一個吧。人生苦短，我用python。

pdf 轉 word

程式設計環境： attrs==17.4.0 lxml==4.1.1 pdfminer3k==1.3.1 pluggy==0.6.0 ply==3.11 py==1.5.2 pytest==3.4.1

C# pdf轉word

//首先安裝spire.pdf 的get包 //該方法只能轉換10頁的pdf文件 /// <summary>////// </summary>/// <param name=\"originalPath\">檔案路徑</param>/// <param name=\"newPath\">新檔

Python 實現加密過的PDF檔案轉WORD格式

實現方法簡介許多檔案都支援轉換為PDF格式，諸如Word，Excel，PowerPoint，Cad以及圖片格式。所以pdf從學校到職場，都可以看到pdf檔案的身影。

C# wps轉pdf（word、ppt、excel），線上預覽pdf

wps轉pdf 　　注：我是在wps試用期專業版，windows10系統 vs2019 webform（.net framework4.5）測試。

【轉】使用Python轉換PDF，Word/Excel/PPT/md/HTML都能轉！

轉自：https://blog.csdn.net/weixin_41846769/article/details/106682994 今天講的是各位一定會接觸到的PDF轉換，關於各種格式的檔案轉換為PDF有很多第三方工具與網站可以實現，但是使用Python的好處不僅可以批量轉

Aspose.Words word 轉 pdf、pdf 轉圖片

import java.awt.image.BufferedImage; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream;

C#之獲取PDF張數以及PDF轉JPG

一：開啟管理NuGet程式包進行安裝Aspose.Pdf.dll 二：實踐 (1)獲取PDF頁數 /// <summary>

win10系統將PDF轉CAD檔案後變成白底如何恢復

不同檔案格式轉換是比較頻繁的操作了，主要為方便編輯和閱讀，比如PDF轉CAD檔案，PDF是比較常見的文件格式，但是PDF檔案編輯是一件頭疼的事情，所有很多小夥伴會轉為CAD檔案編輯。轉換後總會遇到一些問題，比如PDF轉

html轉word

需求：線上填寫(動態)表單，將表單html轉成word儲存在伺服器我在網上找了很久，大多數都是在後端各種正則，各種判斷控制元件什麼的

PDF to EPUB Converter Mac(PDF轉EPUB轉換器)

EPUB to PDF Converter for Mac是一款執行在Mac平臺上的電子書轉換器，可以將PDF轉換為EPUB格式。EPUB to PDF Converter內建PDF閱讀器可讓您輕鬆檢視PDF內容，將PDF轉換為EPUB只需簡單3個步驟，非常好用。

pdf轉txt要多久？其實速度可以很快

PDF轉TXT的時候需要做到準確率高還有轉換速度快，那麼什麼方法可以同時要求這兩兩點呢？分享給大家

基於Java SWFTools實現把pdf轉成swf

SWF Tools 是一組用來處理 Flash 的 swf 檔案的工具包，包括： 1. 合併工具 swfcombine

Swagger文件轉Word 文件

一、前言為什麼會產生這個需求呢？我們公司作為乙方，老是被客戶追著要一份API文件，當我們把一個 Swagger 文件地址丟給客戶的時候。客戶還是很不滿意，嫌不夠正式！！死活堅持要一份 word 文件。然後領導給了個介

pdf轉png圖片

maven依賴 <dependencies>  <dependency> <groupId>org.apache.pdfbox</groupId>

前端將pdf轉成圖片

1.安裝 pdf.js 庫 npm install pdf.js const file = this.$refs.input.files[0] const obj = new FileReader()

PHP PDF轉圖片：設定影象的色彩空間 RGB&CMYK互轉

技術標籤：PHP經典小案例imageRBG CMYKPHP Imagickphp PHP擴充套件之 Imagick安裝 https://www.cnblogs.com/jinxiblog/p/8053008.html

Mac下使用imagemagick將PDF轉長圖

技術標籤：各類小trickimagemagick Mac下使用imagemagick將PDF轉長圖安裝imagemagick brew install imagemagick

go語言中pdf轉圖片功能的實現(CentOS)

程式碼實現步驟1：下載imagick 步驟2：go實現程式碼如下 package main import ( \"os\" \"strconv\"

pdf轉圖片

技術標籤：筆記 pdf轉化為圖片程式碼 import sys, fitz import os import datetime def pyMuPDF_fitz(pdfPath, imagePath):

pdf 轉 word

相關推薦