python解析word文件首、尾頁
1.docx 不能解析.doc文件,只能解析.docx文件
2.如何將doc轉換為docx (window 裡有開啟後另存為)
3.docx文件有沒有page的概念?如何使用分頁符?如何取得第一頁和最後一頁
1.如何使doc文件,將其轉換為docx文件
def dosaveas(self,path):
word = wc.Dispatch('word.application')
#doc 目標路徑下的檔案
doc = word.Documents.Open(path)
#換換為docx後的目標檔案
doc.SaveAs(self.file_path, 12, False, "", True, "", False, False, False, False)
doc.Close()
word.Quit()
2.解析docx文件的首、尾頁,返回字串內容
def parsedocin(self,path):
result = []
if path.endswith(".doc"): #doc檔案需要轉為docx檔案
self.dosaveas(path)
#獲取文件物件
file = docx.Document(self.file_path)
else:
file = docx.Document(path)#獲取文件段落數
paragraphs_len = len(file.paragraphs)
#輸出每一段的內容
#for para in file.paragraphs:
# print(para.text)
paragraphs_list=[]
if paragraphs_len > parseDoc.PAGE_LINES:
for i in range(0,parseDoc.PAGE_LINES):
paragraphs_list.append(file.paragraphs[i])
for j in range((paragraphs_len - parseDoc.PAGE_LINES),paragraphs_len):
paragraphs_list.append(file.paragraphs[j])
else:
for i in range(0,parseDoc.PAGE_LINES):
paragraphs_list.append(file.paragraphs[i])#每一次迴圈顯示一行文字內容
for para in paragraphs_list:
#print(para.text)
result.append(para.text)return result