Python：讀取 .doc、.docx 兩種 Word 文件簡述及“Word 未能引發事件”錯誤

阿新 • • 發佈：2018-12-14

bug itext als htm 單獨 borde b+ compile http

Python 中可以讀取 word 文件的庫有 python-docx 和 pywin32。

	優點	缺點
python-docx	跨平臺	只能處理 .docx 格式，不能處理.doc格式
pywin32	僅限 windows 平臺	.doc 和 .docx 都能處理

pywin32

這個庫很強大，不僅僅可以讀取 word，但是網上介紹用 pywin32 讀取 .doc 的文章真不多，因為，真心不好用。

以下是 pywin32 讀取 .doc 的代碼示例，但是讀取表格有問題，輸出全是空，原因不明，因為不打算用所以沒有深入研究。另外，如果表格中有縱向合並單元格，會報錯：“無法訪問此集合中單獨的行，因為表格有縱向合並的單元格。”

from win32com.client import Dispatch

word = Dispatch(‘Word.Application‘)     # 打開word應用程序
# word = DispatchEx(‘Word.Application‘) # 啟動獨立的進程
word.Visible = 0        # 後臺運行,不顯示
word.DisplayAlerts = 0  # 不警告

path = r‘E:\abc\test.doc‘
doc = word.Documents.Open(FileName=path, Encoding=‘gbk‘)

for para in 
 doc.paragraphs:
    print(para.Range.Text)

for t in doc.Tables:
    for row in t.Rows:
        for cell in row.Cells:
            print(cell.Range.Text)

doc.Close()
word.Quit

但是 pywin32 有另外一個功能，就是將 .doc 格式另存為 .docx 格式，這樣我們就可以使用 python-docx 來處理了。

def doc2docx(path):
    w = win32com.client.Dispatch(‘ 
Word.Application‘)
    w.Visible = 0
    w.DisplayAlerts = 0
    doc = w.Documents.Open(path)
    newpath = os.path.splitext(path)[0] + ‘.docx‘
    doc.SaveAs(newpath, 12, False, "", True, "", False, False, False, False)
    doc.Close()
    w.Quit()
    os.remove(path)
    return newpath

python-docx

import docx

fn = r‘E:\abc\test.docx‘
doc = docx.Document(fn)

for paragraph in doc.paragraphs:
        print(paragraph.text)

for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            print(cell.text)

對於縱向合並單元格，python-docx 的處理也很貼心。

技術分享圖片

Word 未能引發事件

我的爬蟲在爬取到 .doc 文件之後，就通過上面的方法將其轉為 .docx 格式，原本一切都好，下班掛機在跑，第二天來一看，報了這個錯：

技術分享圖片

我用報錯的文件單獨調試了 doc2docx 方法，並沒有報錯。網上查了這個錯誤，沒有啥收獲。

反復測試後發現總是那個網頁報錯，說明 bug 可以重現，問題是到底是哪裏報錯。

我將代碼一行行刪去，直到只留下執行到報錯所必須的代碼：

def get_winningbid_detail(url, name):
    r = requests.get(url)
    r.encoding = ‘utf-8‘
    html = r.text
    soup = BeautifulSoup(html, ‘lxml‘)

    ps = soup.find_all(text=re.compile(‘附件‘))
    if len(ps) > 0:
        os.makedirs(os.path.join(download_dir, name), exist_ok=True)
        for p in ps:
            a_tab = p.find_next_sibling(‘a‘)
            if a_tab is not None:
                link = homepage + a_tab[‘href‘]
                localfilename = os.path.join(download_dir, name, a_tab.text)
                # print(localfilename)
                with open(localfilename, ‘wb+‘) as sw:
                    sw.write(requests.get(link).content)
                if localfilename.endswith(‘.doc‘):
                    doc2docx(localfilename)

反復讀這段代碼，並沒有發現什麽問題。

因為有些網頁的附件名稱是相同的，例如公告.doc，所以我按每個網頁的標題（在總覽頁面爬到的）分文件夾放置下載的文件，所以方法中傳了一個 name 參數，而如果 name 參數傳空，則不會報錯。

其實由此已經可以發現 bug 所在了，但我卻沒想到，又反復折騰了很久才發現，原來是文件名太長了。

在windows下面，單個文件名的長度限制是255，完整的路徑長度（如 E:\abc\test.doc）這樣限制是260，一個漢字占2個字符。

路徑最後有一個字符串結束符 ‘\0‘ 要占掉一個字符，所以完整路徑實際限長是259。

Python：讀取 .doc、.docx 兩種 Word 文件簡述及“Word 未能引發事件”錯誤

bug itext als htm 單獨 borde b+ compile http Python 中可以讀取 word 文件的庫有 python-docx 和 pywin32。優點缺點 python-docx 跨平臺只能處理 .docx 格式，不能處理

Python中讀取txt檔案的兩種可行辦法

DataTest.txt中的檔案內容，檔案最後儘量不要留空行，否則有的時候會出現error 1,2,3 4,5,6 7,8,9 第一種方式：使用 csv.reader讀取txt檔案 import csv data = [] with open('E:/DataTest.t

Python程式設計：讀取pdf、pptx、docx、xlsx檔案的頁數

pdf 安裝工具 pip install pdfplumber 程式碼示例 import pdfplumber from pdfminer.pdfparser import PDFSyntaxError def get_pdf_page(pdf_path):

python 類C數組的兩種形式：list -->內容可變, tuple --->內容不可變

size print app http append 列表 itl c數組 multi python 中的列表相當與 C 中的數組，列表：list 初始化使用[ ]，元組：tuple 初始化使用（）；一、列表list 1 #!/usr/bin/python 2 3

Opencv-Python：影象尺寸、影象的讀取、顯示、儲存與複製

在使用opencv的方法時，首先必須匯入opencv包。新的opencv匯入cv2，這裡也和cv做了一個對比 import cv2 一、影象尺寸影象的大小可以通過其shape屬性來獲取，shape返回的是一個tuple元組，第一個元素表示影象的高度，第二個表示影象的寬度，第三個表示畫素

Python操作Mongodb插入資料的兩種方法：insert_one()與insert_many()

sys.setdefaultencoding('utf8') import web from pymongo import MongoClient class getPltfList(object): def __init__(self): self.db1 = web.databa

SparkStreaming部分：OutPutOperator類，SaveAsHadoopFile運算元（實際上底層呼叫textFileStream讀取的，跟前兩種有一些區別）【Java版純程式碼】

package streamingOperate.output; import java.util.Arrays; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; imp

Ubuntu下使用python讀取doc和docx文件的內容

讀取docx文件使用的包是python-docx 1. 安裝python-docx包 sudo pip install python-docx2. 使用python-docx包讀取資料 #encod

Spring讀取property檔案的兩種配置：EL表示式和placeholder表示式

<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/

C#開發小試手----小功能：C#讀取csv檔案——針對兩種不同需求的表頭

在練習過程中先後遇到了以下兩種需求：完整讀取CSV檔案，包括CSV檔案的表頭只讀取CSV檔案內容，表頭自定義新增針對需求1，程式碼如下：//*********************************csv2dt----讀取csv表頭方案****************

java讀取txt、doc、docx檔案

import java.io.*; import java.io.File; import java.io.FileInputStream; import java.io.InputStream; import org.apache.poi.POIXMLDocu

【轉載】關於Python腳本開頭兩行的：#!/usr/bin/python和# -- coding: utf-8 --的作用 – 指定文件編碼類型

ron 標識精確 log 解析器開始 html weight .org 下面的內容來自：http://www.cnblogs.com/blueskylcc/p/5332642.html，對方也是轉的，不過沒有找到轉載的出處； 1、#!/usr/bin/python

ubuntu centos debian環境下腳本一鍵自動開啟PPTP、L2TP兩種VPN服務

ubuntu centos debian環境下腳本一鍵自動開啟pptp、l2tp兩種vpn服務 ubuntu centos debian環境下腳本一鍵自動開啟PPTP、L2TP兩種VPN服務親測可用http://blog.csdn.net/bahubali/article/

BZOJ 2101 [Usaco2010 Dec]Treasure Chest 藏寶箱：區間dp 博弈【兩種表示方法】【壓維】

space print 而且 problem 所有 php 一條直線題解 bzoj 題目鏈接：http://www.lydsy.com/JudgeOnline/problem.php?id=2101 題意：　　共有n枚金幣，第i枚金幣的價值是w[i]。　　把金幣排成一

C#儀器數據文件解析-Word文件（doc、docx）

new read ffi 數據文件 word 不同軟件情況下如果不少儀器數據報告輸出為Word格式文件，同Excel文件，Word文件doc和docx的存儲格式是不同的，相應的解析Word文件的方式也類似，主要有以下方式： 1.通過MS Word應用程序的DCOM

destoon6.0最新動、靜兩種頁面判斷會員是否登錄

one class scrip lac splay 時間 java 自己 ofo 最新動、靜兩種頁面判斷會員是否登錄加在尾巴模板中 <script type="text/javascript"> if(get_cookie(‘auth‘)) { $(‘

Redis in Python：HyperLogLog(pfadd、pfcount、pfmerge)

返回 tro 集合 pre col key style 就是 values redis HyperLogLog 可以接受多個元素作為輸入，並給出輸入元素的基數估算值. 基數：集合中不同元素的數量。比如 [foo‘, ‘bar‘, ‘foobar‘, ‘bar‘, ‘test

python中字典循環的兩種方式

ack lap 列表效率 PE () none IE key 在python中對字典的循環是經常使用的一種方法，但是不同的循環方法，其工作效率也是不一樣的。 1 info = { 2 ‘stu1101‘:"Lucy", 3 ‘stu1102‘:

python：靜態方法、類方法、屬性方法

實例方法 strong cme str -- icm name ref 靜態方法：只是名義上歸類管理，實際上在靜態方法裏訪問不了類或實例中的任何屬性。例子： class dog(object):----def init(self,name)：--------self.n

python中list轉csv的兩種方法

方法一： name_attribute = ['NumberID','UserID','ModuleID','StartDate','EndDate','Frequent'] writerCSV=pd.DataFrame(columns=name_attribute,data=data) wr

Python：讀取 .doc、.docx 兩種 Word 文件簡述及“Word 未能引發事件”錯誤

pywin32

python-docx

Word 未能引發事件

相關推薦