基於Python獲取docx/doc檔案內容程式碼解析

阿新 • • 發佈：2020-02-17

這篇文章主要介紹了基於Python獲取docx/doc檔案內容程式碼解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

整體思路：

下載檔案並修改後綴為ｚｉｐ檔案，解壓ｚｉｐ檔案，所要獲取的內容在固定的資料夾下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自帶，不需要額外下載安裝．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'


def create(newfile):
  """下載docx檔案，並修改後綴為zip"""
  res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

  if not os.path.exists(newfile):
    f = open(newfile,'wb')
    for chunk in res.iter_content(100000):
      f.write(chunk)
    f.close()

  os.rename(newfile,'test.zip')  這種方法發現只能解決一部分doc檔案,具體原因不得而知,有明白的歡迎留言
  # 將doc/docx檔案壓縮成ｚｉｐ檔案
  #pf = zipfile.ZipFile('test.zip','w',zipfile.ZIP_STORED)　
  #pf.write(newfile)

def get_txt():
  """解壓zip，並在work/temp/word/document.xml獲取文字內容，進行正則替換標籤等操作"""
  f = zipfile.ZipFile('test.zip','r')
  for file in f.namelist():
    f.extract(file,"temp/")
  
  f = xml.dom.minidom.parse('./temp/word/document.xml')
  
  txt = re.sub(r'</w:t></w:r></w:p>','\n',f.toxml())
  print re.sub(r'<.*?>','',txt)

if __name__ == '__main__':
  create(newfile)
  get_txt()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

基於Python獲取docx/doc檔案內容程式碼解析

Python實現快速大檔案比較程式碼解析

問題假如，在有兩個大檔案分別儲存了大量的資料，資料其實很簡單就是一堆字串，每行儲存一條，如何快速篩選出兩個檔案的異同之處麼，或者如何篩選出兩個檔案中不同的元素呢？

基於python判斷目錄或者檔案程式碼例項

這篇文章主要介紹了基於python判斷目錄或者檔案程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基於python的docx模組處理word和WPS的docx格式檔案方式

Python docx module for Word or WPS processing 本文是通過docx把word中的表格中的某些已填好的內容提取出來，存入excel表格。

基於python實現上傳檔案到OSS程式碼例項

基礎環境 # +++++ 阿里雲OSS開發指南里都有詳細的步驟，在這裡整理了一下自己需要的東西

基於Python獲取資料夾中檔案數量與其子資料夾中檔案數量

最近，需要對多個資料夾統計其內部檔案數量。其中，這多個需要統計檔案數量的資料夾都放在一個總資料夾內。

Python 獲取命令列引數內容及引數個數的例項

執行python指令碼的時候，有時需要獲取命令列引數的相關資訊。C語言通過argc和argv來獲取引數的個數和引數的內容，python中通過sys模組的argv來獲取引數的內容，使用len(sys.argv)獲取引數的個數。

基於Python獲取城市近7天天氣預報

這篇文章主要介紹了基於Python獲取城市近7天天氣預報,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

如何基於Python獲取圖片的物理尺寸

這篇文章主要介紹瞭如何基於Python獲取圖片的物理尺寸,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python 獲取專案根路徑的程式碼

在執行，除錯，打包成exe 三個不同場景下獲取跟路徑，用於解決獲取資原始檔絕對路徑問題。

基於Python獲取照片的GPS位置資訊

這篇文章主要介紹了基於Python獲取照片的GPS位置資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python逐行讀取檔案內容的方法總結

Python四種逐行讀取檔案內容的方法下面四種Python逐行讀取檔案內容的方法，分析了各種方法的優缺點及應用場景，以下程式碼在python3中測試通過， python2中執行部分程式碼已註釋，稍加修改即可。

基於python檢查SSL證書到期情況程式碼例項

結合郵件告警和頁面展示，再多的域名證書到期情況即可立馬知道程式碼示例：

基於Python下載網路圖片方法彙總程式碼例項

本文介紹下載python下載網路圖片的方法，包括通過圖片url直接下載、通過re/beautifulSoup解析html下載以及對動態網頁的處理等。

基於python實現刪除指定檔案型別

Python 是一個高層次的結合瞭解釋性、編譯性、互動性和麵向物件的指令碼語言。

Python持續監聽檔案變化程式碼例項

在日常的工作中,有時候會有這樣的需求,需要一個常駐任務,持續的監聽一個目錄下檔案的變化,對此作出迴應.

基於Python實現下載網易音樂程式碼例項

程式碼如下 # 爬取網易音樂 import requests from bs4 import BeautifulSoup import urllib.request headers = {\"origin\": \"https://music.163.com\",\"referer\": \"https://music.163.com/\",\"user-agent\"

基於python實現圖片轉字元畫程式碼例項

直接上程式碼圖片就使用我家爽妹子的吧如果沒有安裝pil模組的話先cmd安裝下

基於python實現簡單C/S模式程式碼例項

C/S模式就是指客bai戶端/伺服器模式，du是計算機軟體協同工作的一種模式。zhi

基於python獲取本地時間並轉換時間戳和日期格式

附上程式碼與執行結果截圖： import time # 獲取當前時間 now = time.localtime() # 格式化日期

基於Python獲取docx/doc檔案內容程式碼解析

相關推薦