Python word文字自動化操作實現方法解析
之前介紹了一個Python包 openpyxl ,用於處理 Excel ;而對於 Word 文字時同樣也有對應的 Python庫 Python-docx,在日常辦公中,如果需要處理多個 word 文字,且操作步驟都是重複單調的,我想這個庫就可以幫到你
在瞭解 Python-docx 常用函式之前,需要知道 在 Python-docx 各命令所對應 word 各部件,下圖所示,
- Document 指的是 word 文件;
- paragraph 對應段落;
- run 對應 一句話中的各個欄位,樣式調整時,一般面向的操作物件都是逐欄位進行;
1,安裝 Python-docx
通過 pip 工具即可進行安裝,在命令列中輸入 pip install Python-docx 即可
2,建立或開啟 Document
Python-docx 匯入包時是以 docx 命令存在的,與 Opencv 的 Python 版本匯入方法相似;建立檔案、開啟檔案以 Document() 命令操作,這裡操作時需要注意幾個點:
1,Document() 命令是基於預設”模板“建立一個空白文件,隨後可對文件進行編輯操作,最後沒有用 save() 函式儲存的話,文件將伴隨程式結束同記憶體一起
2,Document(path) 命令表示開啟一個本地已經存在的 docx 檔案,path 表示存放目錄若不存在則程式報錯;
from docx import Document
document = Document()
3,加入一段落
段落作為 docx 文件正文的主要成分,那怎樣在建立好的 Document 中加入一段話呢?官方給出了兩種方式
1,在文件後面插入
這種方法是比較常見且簡單的,命令如下
paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
方法中將建立好的段落引用指向 paragraph ,表明了游標的位置,後面的一些操作可以藉助 paragraph 引用變數來作為定位操作
2,在指定地方的前面插入
文件編輯正常順序是在末尾進行編輯,但有時在編輯時可能失誤少輸入一段話或文字,這時就用到 在指定位置前面 進行插入操作
prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')
此命令常用於 修正文件 ,當需要在一段話前面新增一些別的文字時。
4,標題
docx 中 會用一、二、三級標題將正文分為幾部分,讓文字主次感更強;Python-docx 有對應的內建函式供我們使用,內建函式中標題分為主標題和子標題
建立標題的函式方法中,有一個引數 level 可進行修改,若不設定時預設為 主標題(leve = 0);
document.add_heading('The REAL meaning of the universe')
子標題分為 1-9 九個等級,修改引數 level 即可
document.add_heading('The role of dolphins',level=2)
5,分頁符
在 Word 中進行文字編輯,想在單獨的一個新頁面編寫文字時,就需要加入一個 強制分頁符,命令如下
document.add_page_break()
這裡需要注意下,加入分頁符之後,新頁面上編輯的段落樣式屬性與之前頁面段落屬性是分隔開的
6,表格
在文件中建立一個 2*2 的 表格
table = document.add_table(rows=2,cols=2)
表格中每個單元格可進行文字編輯,顏色填充;對於特定表格而言可通過 row、column 索引來進行定位,這裡藉助了操作 Excel 表格的思想
cell = table.cell(0,1)
賦值其文字內容
cell.text = 'parrot,possibly dead'
對一個一個單元格修改操作太麻煩了,可以一次選中指定列,對其單元格資料進行逐個修改
row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'
table.rows[index] 返回索引為 index 的指定行,根據 .rows和.cols 表示 表格的全部行或列是可迭代的,因此可通過 for 迴圈來訪問每一個單元格
for row in table.rows:
for cell in row.cells:
print(cell.text)
因為 .rows 和 .cols 是可迭代的,通過 len() 命令來獲取行、列數
row_count = len(table.rows)
col_count = len(table.columns)
除了以上操作之外,還可以向 table 中逐漸新增行、列命令
row = table.add_row()
col = table.add_col()
上面提到了 建立表格,單元格修改,建立新行/列,逐行/列迭代,下面用個例項做個簡單總結,程式碼中完成功能如下:
- 1,item 建立一個 3*3 的元組資料;
- 2,在 word 中新建一個 table,一行三列;
- 3,建立好的 table 的表頭依次設定為 Qty,SKU,Description;
- 4,將 item 中的元素,以 table 逐行 3 個的方式建立;
# get table data ------------- items = ( (7,'1024','Plush kittens'),(3,'2042','Furbees'),(1,'1288','French Poodle Collars,Deluxe'),) # add table ------------------ table = document.add_table(1,3) # populate header row -------- heading_cells = table.rows[0].cells heading_cells[0].text = 'Qty' heading_cells[1].text = 'SKU' heading_cells[2].text = 'Description' # add a data row for each item for item in items: cells = table.add_row().cells cells[0].text = str(item.qty) cells[1].text = item.sku cells[2].text = item.desc
此外,還可修改 表格的樣式,word 文件中的表格樣式這裡都可以設定(樣式名稱可以通過word 文件自有的樣式,將滑鼠放到樣式的縮圖上即可檢視),但需要注意的是,使用樣式時需要去掉word軟體中樣式名字中的空格,例如下面 Office 原樣式名字為 Light Shading-Accent1,這裡直接把中間空格去掉
table.style = 'LightShading-Accent1'
7,圖片
在 python-docx 中新增圖片用下面命令即可完成
document.add_picture('image-filename.png')
上面加入的是本地檔案 path ,除此之外還可以使用 file-like object,這種格式對於資料庫或者網路上的圖片讀取時時非常方便的
修改圖片大小
python-docx 加入影象預設表示的是 native size,正常圖片加入時會出現相同圖片的一側出現 4.167 inches 的空白處,大概佔比紙張寬度的一半;在獲取想要影象大小時,可以指定寬度或高度設為較為方便的單位
from docx.shared import Inches
document.add_picture('image-filename.png',width=Inches(1.0))
8,應用段落樣式
設定段落樣式方法有兩種,一種建立時就可以設定
document.add_paragraph('Lorem ipsum dolor sit amet.',style='ListBullet')
另一種是建立完之後再再進行設定(這時不需要去掉樣式名稱中的空格)
paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'
9,字型加黑並斜體化
對字型做斜體和加黑操作之前, 需要理解在一個段落中都做了什麼事情,簡單來說兩部分:
1,一個段落具有全部 block-level formatting ,比如製表符、行高、tabs 等;
2,Character-level formatting ,例如粗體、斜體,應用的是 run物件,在段落中的所有內容必須是一個 run ,且不僅包含一個,
Run 物件同時包含一個 .bold 和.italic 屬性,可讓你來對其值進行設定
paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')
上面程式碼中最後建立的文字格式形如:Lorem ipsum dolor sit amet.
需要注意的是設定 bold 或 italic 時,可以把 .add_run() 命令直接放在右邊
paragraph.add_run('dolor').bold = True
# is equivalent to:
run = paragraph.add_run('dolor')
run.bold = True# except you don't have a reference to `run` afterward
10,字元樣式
除了上面加黑、斜體之外、還可定義字元樣式( character styles ), 定義時加入一行新的 run 物件;例如
paragraph = document.add_paragraph('Normal text,')
paragraph.add_run('text with emphasis.','Emphasis')
上面建立一個文字 ,結果如下
Normal text,text with emphasis. ;text with emphasis. 部分應用 Emphasis(強調) 的字元格式
上面程式碼也可改為;
paragraph = document.add_paragraph('Normal text,')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'
與段落樣式一樣,樣式名字與 Word UI 裡的一樣,在 Word 樣式管理器中都能找得到!
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。