【Python】Docx解析

阿新 • • 發佈：2018-11-06

1、cd D:\ProgramData\Anaconda3

2、pip install python-docx

3、python程式碼處理

# -*- coding: utf-8 -*-
 


import os
import docx
from win32com import client as wc

docs = []
 
def traverse(f):
    fs = os.listdir(f)
    for f1 in fs:
        tmp_path = os.path.join(f,f1)
        if not os.path.isdir(tmp_path):
             
#print('檔案: %s'%tmp_path)
            if  os.path.splitext(tmp_path)[-1].lower() == ".doc" or os.path.splitext(tmp_path)[-1].lower() == ".docx":
                #print('檔案: %s'%tmp_path)
                docs.append(tmp_path)
        else:
            #print('資料夾：%s'%tmp_path)
            traverse(tmp_path)


 
def parseDoc(f):
    doc = docx.Document(f)
    parag_num = 0
    for para in doc.paragraphs :
        print("----------------------------------------------------")
        print(para.text)
        print("----------------------------------------------------")
        parag_num += 1      
    print (' 
This document has ', parag_num, ' paragraphs')

def doc2docx(full_path):
    #dirname = os.path.dirname(full_path)
    #filename = os.path.basename(full_path)
    #newpath = full_path.replace('doc','docx')
    newpath = full_path + "x"

    if os.path.exists(newpath):
        return

    # 首先將doc轉換成docx
    word = wc.Dispatch("Word.Application")

    # 找到word路徑 + 檔名 ，即可開啟檔案 
    doc = word.Documents.Open(full_path)
    
    # 使用引數16表示將doc轉換成docx，儲存成docx後才能 讀檔案
    doc.SaveAs(newpath,16)
    doc.Close()
    word.Quit()

            
path = 'E:/NLP/Docs/'

traverse(path)
 
for k,v in enumerate(docs):
    if k < 1:
        print(k,v)
        parseDoc(v)
        #doc2docx(v)

【Python】Docx解析

1、cd D:\ProgramData\Anaconda3 2、pip install python-docx 3、python程式碼處理 # -*- coding: utf-8 -*- import os import docx from win32com import client a

【Python】Json解析各種問題

1.資料不規則，需提取{}內的內容 result = json.loads(re.findall(r"{'.+?'}", str(test))) 2.json字串中的非法雙引號 def deal_json_invaild(data): data = data

【Python】beautifusoup解析HTML並將資料寫入檔案

Python版本：3.6 IDE：PyCharm 1.解析HTML(這裡以www.baidu.com為例) headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/5.0 (Windo

【python】通過LibreOffice把html文件轉換成docx文件

去掉 less 通過文件 bre eof html ice 要去通過下面的一行命令，把test.html轉換成test.docx soffice --invisible --headless --convert-to docx:"Office Open XML Tex

【Python】if name == 'main' 解析

1. 摘要通俗的理解__name__ == '__main__'：假如你叫小明.py，在朋友眼中，你是小明(__name__ == '小明')；在你自己眼中，你是你自己(__name__ == '__main__')。 if __name__ == '__main__'的意思是：當.py檔

【python】爬蟲篇：python對於html頁面的解析（二）

我，菜雞，有什麼錯誤，還望大家批評指出！！前言：根據自己寫的上一篇文章，我繼續更第二部分的內容，詳情請點選如下連結【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/details/833118

【python】詳解map函式的用法之函式並行作用解析

Python函式程式設計中的map(func, seq1[, seq2,…]) 函式是將func作用於seq中的每一個元素，其中seq須是可迭代物件，並將所有的呼叫的結果作為一個list返回。如果func為None，作用同zip()。本文參考自：Python中map()函式淺析一文，感謝精彩分享。下面

【Python】configparser配置檔案解析器

python之configparser配置檔案解析器此模組提供了 ConfigParser類，該類實現了一種基本配置語言，該語言提供了類似於Microsoft Windows INI檔案中的結構。您可以使用它來編寫可以由終端使用者輕鬆定製的Python程式。註解: 此庫

CPP巨集定義解析處理【python】

問題描述 c++巨集定義檔案中關鍵字有#define, #undef #ifndef, #ifdef, #else,#endif, 處理註釋，//，/*，*/, 解析檔案，輸出其中的巨集定義分析思路文字分析基礎是字串處理，巨集定義檔案的處理需要對遇到的關鍵字執行特殊的處理。檔案

【Python】解析Python的縮進規則

行存儲 all 什麽 clas lis 括號 nbsp The range Python中的縮進（Indentation）決定了代碼的作用域範圍。這一點和傳統的c/c++有很大的不同（傳統的c/c++使用花括號{}符，python使用縮進空格）。每行代碼中開頭的空格數（wh

【Python】解析Python中的運算符

情況 true not in 方法 class 3.3 col list als Python中的運算符相比較於傳統的C/C++差別不是很大，主要是一些個別的運算符上的差別。包括：算術、比較、賦值、位、邏輯、成員、身份等。它們的優先級：符號說明

【Python】正則表達式1（未完）

pes mmu get regular rop 則表達式 line out github 1、正則表達式唯一的用途就是在文本中匹配和尋找模式，模式可以簡單，也可以復雜。 2、Regexr 這個網站很個性的就是，有一個community標簽，打開後可以看到評分由高到低

【LeetCode】【Python】Binary Tree Inorder Traversal

nod 不知道 otto div ack return integer neu else Given a binary tree, return the inorder traversal of its nodes‘ values. For example: Gi

【Python】決策樹的python實現

uia bmp say 不知道 times otto outlook lru bgm 【Python】決策樹的python實現 2016-12-08 數據分析師Nieson 1. 決策樹是什麽? 簡單地理解，就是根據一些 feature 進行分類，每個節點提一個問

【Python】基礎知識

數據文件專用一切都元組內存引用傳遞 asc ilo 1. python腳本語言的第一行，目的就是指出，你想要你的這個文件中的代碼用什麽可執行程序去運行它 #!/usr/bin/python 是告訴操作系統執行這個腳本的時候，調用/usr/bin下

【Python】python2.7 安裝配置OpenCV2

pen 2.4.1 安裝 so文件 strong make lib con ack 環境：Ubuntu16.04 anaconda Python2.7 opencv2.4.13 安裝opencv後 import cv2 遇到錯誤信息： No module named cv2

【Python】數組排序

log false blog sort函數 () ron 返回 imp 總結 1.numpy庫：argsort() 　　argsort函數返回的是數組值從小到大的索引值（升序排列）一維： In [1]: import numpy as np In [2]: x

【Python】selenium調用IE11瀏覽器，報錯“找不到元素”NoSuchWindowException: Message：Unable to find element on closed window

conn ont csdn creates logs 註冊 target get 意思當編寫自動化腳本，定位瀏覽器元素時，報如下錯誤：代碼： >>> # coding=utf-8 >>> from selenium import w

【Python】Selenium元素定位錯誤之解決辦法

tor log -m alt src 多個 common nbu invalid 當使用class定位元素時發現報錯：錯誤信息：selenium.common.exceptions.InvalidSelectorException: Message: Compound

【Python】京東商品價格監控

ets amp inpu text init clas bject logs while import requests,json,re,winsound,time class Stock(object): def __init__(self):

【Python】Docx解析

相關推薦