解析doc文件中XML段落的個數

阿新 • • 發佈：2022-05-27

# -*- coding:utf-8 -*-
'''
anslysis_doc.py

功能：解析doc文件中xml段落的個數
步驟：
'''

import os
import re
from docx import Document


def get_xml_count(path):
    '''
    :param path: doc文件的絕對路徑
    :return: 返回doc文件中XML段落的個數
    '''

    # print('doc檔案： %s' %path)
    doc = Document(path)
    count = 0
    flag = True
     
for paragraph in doc.paragraphs:
        # print(paragraph.text)
        if flag:
            regex = re.match(r'^<[A-Z]+>$', paragraph.text)   # 首次匹配到XML的標籤，eg:<ACL>
            if regex:
                value = regex.group(0)   # 獲取標籤內容
                flag = False
                count  
+= 1
        elif re.match(value, paragraph.text):        # 以首次獲取的標籤內容對剩下段落做正則匹配
            count += 1
    return count


if __name__ == '__main__':
    path_dir = 'D:\\workspace_py\\FILES'
    sum = 0
    for file in os.listdir(path_dir):
        path = path_dir + '/' + file
        count = get_xml_count(path)
         
print('%s檔案中，符合條件XML個數： %s' % (path, count))
        sum += count
    print('總的符合條件XML個數：%s' % sum)


# path = 'D:\\workspace_py\\FILES\\Comware ACL NETCONF XML API Action Reference.docx'
# count = get_xml_count(path)
# print(count)

解析doc文件中XML段落的個數

# -*- coding:utf-8 -*- \'\'\'anslysis_doc.py 功能：解析doc文件中xml段落的個數步驟： \'\'\'

python實現解析markdown文件中的圖片，並且儲存到本地~

背景前陣子簡書好像說是涼了，搞得我有點小慌，畢竟我的大部分部落格都是放在簡書上面的，雖然簡書提供了打包匯出功能，但是隻能匯出文字，圖片的話還是存在簡書伺服器上面，再加上我一直想要重新做一個個人部落格，

package com.cctv4g.mobilevideo.addtl.rest;import com.cctv4g.mobilevideo.addtl.core.common.HttpUtil;import com.cctv4g.mobilevideo.addtl.core.common.MmpmConsts;import com.cctv4g.mobilevideo.addtl.rest.s

Java eclipse doc文件生成流程解析

這裡講解下eclipse成為doc文件，首先程式碼： /** * @author szy * @version 1.0 */ package com.founder.sun;

使用spire.doc for java讀取word文件中內容並根據指定內容修改word中字型顏色並下載

用到的jar包：spire.doc.jarorg.apache.poi spire.doc下載：https://www.e-iceblue.cn/Downloads/Free-Spire-Doc-JAVA.html

JS載入解析Markdown文件過程詳解

網上有很多網站會通過.md文件來做頁面內容，很好奇，這是怎麼做的？出於好奇，建了一個test.md檔案：

win10系統在word、excel文件中打字總卡頓怎麼回事

平時使用電腦的過程中，打字肯定是必不可少的操作，但是你有沒有遇到過win10系統在word、excel文件中打字總一卡一卡的問題，嚴重降低工作效率，每編輯一個單元格則每卡頓2-5秒，這是怎麼回事？而且更新輸入法以後也還

PDFtoWORD_V1.1版本支援PDF文件中的文字和圖片一起轉化到word文件中了~

昨天菜鳥小白做了一個小軟體——PDFtoWORD，作用就是將pdf檔案中的文字提取出來自動轉化為可編輯的word型別。但是這個軟體目前也只能將檔案PDF中的文字提取出來，還無法提取圖片。為了進一步完善這個小工

java+freemarker+word 生成轉換doc文件

首先需要匯入jar 引入包 maven 引入greemarker模板  <dependency>

如何獲取可視區域寬高，獲取元素到在文件中的位置

元素寬和高 // 元素.style.width只能獲取行內 // getStyle(元素, \'width\')自己封裝的 // 元素.clientWidth

C#呼叫Excel,拷貝圖表到其他Excel文件中

Microsoft.Office.Interop.Excel.Application excel = new Microsoft.Office.Interop.Excel.Application();

Java 在Word文件中新增藝術字的示例

與普通文字相比，藝術字更加美觀有趣也更具有辨識度，常見於一些設計精美的雜誌或宣傳海報中。我們在日常工作中編輯Word文件時，也可以通過新增藝術字體來凸顯文章的重點,美化頁面排版。這篇文章將介紹如何使用Free

批處理指令碼中變數--獲取文件中的欄位

在執行python指令碼時，需要不斷地輸入引數來測試實驗程式碼，甚是繁瑣（尤其是在給別人演示程式碼的時候）。想著是不是可以設計一個自動化一鍵執行的指令碼

微信小程式設定影象邊框_如何在Google文件中的影象周圍設定邊框

微信小程式設定影象邊框 Adding borders around your images is a good way to give them a little extra flair. Google Docs has a set of built-in features for adding borders and, while they’

谷歌點選圖片超連結實現下載_如何從Google文件中刪除超連結

谷歌點選圖片超連結實現下載 Whenever you copy textfrom the web and paste it into Google Docs, any hyperlinks it contains transfer with it. Here’s how to paste text without hyperlinks o

如何在Google文件中向物件新增替代文字

Alternative text (alt-text) allows screen readers to capture the description of an object and read it aloud. In Google Docs, this helps make your document accessible for anyone with visua

Java 新增騎縫章到PDF 文件中

騎縫章常見於一些重要的合同或標書中，它具有防止他人增減檔案頁數的作用，能保證檔案的完整性和有效性。本文將介紹如何藉助Free Spire.PDF for Java 在Java應用程式中新增騎縫章到PDF格式的合同檔案中。

mongodb的update函式更新資料,更新文件中的某個具體欄位的資料

db.collection.update( <query>, <update>, { upsert: <boolean>, multi: <boolean>, writeConcern: <document>

springboot下載doc文件

1、先找個一個doc的檔案，另存為一份xml格式的檔案，把名字改成fit檔案放到resources目錄結構下面

azw3轉換為pdf_python提取pdf文件中的表格資料、svg格式轉換為pdf

技術標籤：azw3轉換為pdfgroupby 之後的表格轉換成dataframelearning from data pdfmatlab提取gps格式有效資料php 批量轉換文件編碼格式python從文字檔案中提取資料轉換成字典

解析doc文件中XML段落的個數

相關推薦