1. 程式人生 > 實用技巧 >使用python獲取pptx檔案的文字內容範例

使用python獲取pptx檔案的文字內容範例

get_text_from_pptx_pptm.py

#!/bin/python
# -*- coding: utf-8 -*-

from pptx import Presentation
import sys
import base64

reload(sys)
sys.setdefaultencoding('utf8')

fileName = sys.argv[1]
# print(fileName)

def tripSpace( str ):
    return str.replace(" ", "").replace(" ", "").replace("\t", "").replace("
\r\n", "").replace("\r", "").replace("\n", "").replace("\v", "") prs = Presentation(fileName) # ファイル概要(1スライド目のノート) file_summary = "" # ファイル注釈(2スライド目以降のノート) file_note = "" # ファイル內容(オブジェクトのテキスト全文) file_content = "" for i, sld in enumerate(prs.slides, start=1): for shp in sld.shapes: if shp.has_text_frame: file_content
+= shp.text if ( i == 1 ) : file_summary = sld.notes_slide.notes_text_frame.text else : file_note += tripSpace(sld.notes_slide.notes_text_frame.text) print(base64.b64encode(file_summary)) print(tripSpace(file_note)) print(tripSpace(file_content))