Python GUI程式設計：製作一個文件圖片提取軟體

阿新 • • 發佈：2020-12-22

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章最早早起Python，作者GUI工作組

私信回覆“資料”，即可免費領取Python實戰案例講解視訊

Python GUI製作視訊解析神器，全網視訊免費看

https://www.bilibili.com/video/BV1tz4y1o7Yc/

前言

本文將進一步講解如何用Python提取PDF與Word中圖片，並結合之前講解過的GUI框架PysimpleGUI，做一個多檔案圖片提取軟體，效果如下：

本文主要將分為以下部分講解：

PDF，Word，Excel檔案圖片提取

構造圖片提取器GUI框架
整合程式碼並打包

主要涉及的Python模組有：

PIL
PySimpleGUI
re
win32
os
zipfile
fitz

準備工作

首先使用pip安裝相關依賴模組

pip install pillow   #這是對模組PTL的安裝
pip install pypiwin32    #這是對win32的安裝
pip install os 
pip install zipfile
pip install PyMuPDF  #這是引用fitz對PDF操作的包
pip install PySimpleGui

一，提取各檔案內嵌圖片

在之前的文章有講過，讀取Excel有兩種方法。一種是將字尾名改成.zip格式進行提取，一種是通過Pillow模組對Excel進行圖片複製與儲存。而在我們這次3種檔案格式的圖片提取當中，Excel提取圖片方法和之前一樣。

Word中圖片提取方法和通過.zip提取方法類似，PDF提取圖片方法要用到新的模組。由於Excel中提取圖片的兩種方法在之前的文章講過，故這裡只講解PDF和Word中的提取方法。

1.1提取Word圖片思路

和以前一樣，我們先看程式碼再講解

path = values["lujing"]  
count = 1
for file in os.listdir(path):
    new_file = file.replace(".docx",".zip")
    os.rename(os.path.join(path,file),os.path.join(path,new_file))
    count 
+=1      
    number = 0
    craterDir = values["lujing"] + '/'  # 存放zip檔案的資料夾路徑
    saveDir = values["lujing"] + '/' # 存放圖片的路徑
    list_dir = os.listdir(craterDir) # 獲取所有的zip檔名
    for i in range(len(list_dir)):
        if 'zip' not in list_dir[i]:
            list_dir[i] = ''
            while '' in list_dir:
                list_dir.remove('')                            
                for zip_name in list_dir:
                    # 預設模式r,讀
                    azip = zipfile.ZipFile(craterDir + zip_name)
                    # 返回所有資料夾和檔案
                    namelist = (azip.namelist())
                    for idx in range(0,len(namelist)):
                        if namelist[idx][:11] == 'word/media/':#圖片是在這個路徑下
                            img_name = saveDir + str(number)+'.jpg'
                            f = azip.open(namelist[idx])
                            img = Image.open(f)
                            img = img.convert("RGB")
                            img.save(img_name,"JPEG")
                            number += 1
                            azip.close()  #關閉檔案，必須有，釋放記憶體

這裡的程式碼和GUI中通過.zip方式提取Excel圖片的程式碼思路是一樣的。

“

path = values["lujing"]這裡是讀取GUI中鍵為**“ lujing” **的值，也即檔案儲存位置，用於os模組讀取與操作。

new_file = file.replace(".docx",".zip")是替換字尾名，如果是Excel的話，就把.docx改成.xlsx或xls。

craterDir = values["lujing"] + '/'這是存放zip檔案的資料夾路徑，注意此處重新到的鍵為“ lujing”的值後要在後面新增/。

saveDir = values["lujing"] + '/'這是存放圖片的路徑，同理，和上面一樣加個/號。

”

最後說一下與Excel提取比例，最大的不同是下面的程式碼

if namelist[idx][:11] == 'word/media/':細心的讀者可以發現，與Excel提取比例，中括號裡面的值改了。

很好理解，我們可以列印名稱列表[idx]，可以發現在索引0到10是'word/media/'所在位置。而在Excel中是前9位。

感興趣的讀者可以翻看之前的文章，那裡有對這段程式碼的詳細解析，這裡不多做介紹。

1.2提取PDF圖片思路

和之前的excel提取圖片一樣，在一個pdf中加入4張圖片，我們將它壓縮為zip檔案

讀取後

相關程式碼如下：

def pdf2pic(path, pic_path):
    doc = fitz.open(path)
    nums = doc._getXrefLength()
    imgcount = 0 
    for i in range(1, nums):
        text = doc._getXrefString(i)
        if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
            continue
            checkXO = r"/Type(?= */XObject)"
            checkIM = r"/Subtype(?= */Image)"
            isXObject = re.search(checkXO, text)
            isImage = re.search(checkIM, text)
            if not isXObject or not isImage:
                continue
                imgcount += 1
                pix = fitz.Pixmap(doc, i)
                img_name = "img{}.png".format(imgcount)
                if pix.n < 5:
                    try:
                        pix.writePNG(os.path.join(pic_path, img_name))
                        pix = None
                        except:
                            pix0 = fitz.Pixmap(fitz.csRGB, pix)
                            pix0.writePNG(os.path.join(pic_path, img_name))
                            pix0 = None
if __name__ == '__main__':
 path = values["lujing"]+ '/' + values["wenjian"]
    pic_path = values["lujing"]
    pdf2pic(path, pic_path)

先說一下這段程式碼的思路吧，由於PDF不能像Excel和Word一樣改字尾名進行提取，故這裡運用python的一個模組PyMuPDF，過程如下

閱讀PDF並遍歷每一頁
篩選無用的元素並用正則表示式獲取圖片
生成並儲存圖片

fitz.open(path)是開啟PDF資料夾，這裡的路徑是需要在GUI介面中獲取使用者的檔案放置路徑於檔名的。

for i in range(1, nums):
    text = doc._getXrefString(i)

這是我們的第一步重新並存歷，將重新引入到的字串內容放入到文字中

if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
 continue

由於PDF每頁的背景就是一張圖片，故我們可以通過寬高來尋找這些背景圖片並用continue把他們剔除。

checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"
isXObject = re.search(checkXO, text)
isImage = re.search(checkIM, text)
if not isXObject or not isImage:
    continue

我們通過實驗發現圖片所對應的字串在checkxo與checkIM這兩個中。故用正則表示式在文字中進行索引提取，用到了re模組的搜尋函式。如果不是這兩個字串就用繼續剔除。

pix = fitz.Pixmap(doc, i)
img_name = "img{}.png".format(imgcount)
if pix.n < 5:
 try:
  pix.writePNG(os.path.join(pic_path, img_name))
  pix = None
 except:
  pix0 = fitz.Pixmap(fitz.csRGB, pix)
  pix0.writePNG(os.path.join(pic_path, img_name))
  pix0 = None

這是最後一步生成與儲存圖片

“

pix = fitz.Pixmap(doc, i)是生成影象語句，doc代表PDF檔案，i代表遍歷每個圖片物件的索引值。

img_name = "img{}.png".format(imgcount)是設定影象名語句，用提取到的圖片的序列號作為命名格式。

”

如果pix.n <5，可以直接存為PNG，否則將進行RGB變換在儲存。

由於程式碼採用的是def函式編寫模式，故最後還要一個函式的初始化：if __name__ == '__main__':

至此，3種檔案格式（Excel，Word，PDF）圖片提取方法已全部講解，接下來就是重中之重GUI生成了。

二，GUI框架建造

先看完整程式碼：

import PySimpleGUI as sg
sg.ChangeLookAndFeel('GreenTan')   #更換主題
menu_def = [['&使用說明', ['&注意']]]
layout = [
    [sg.Menu(menu_def, tearoff=True)],
    [sg.Frame(layout=[
    [sg.Radio('Excel1', "RADIO1",size=(10,1),key="Excel1"),  sg.Radio('Word', "RADIO1",default=True,key="Word")],
    [sg.Radio('Excel2', "RADIO1", enable_events=True, size=(10,1),key="Excel2"), sg.Radio('PDF', "RADIO1",key="PDF")]], title='選項',title_color='red', relief=sg.RELIEF_SUNKEN, tooltip='Use these to set flags')],
    [sg.Text('檔案位置', size=(8, 1), auto_size_text=False, justification='right'),
     sg.InputText(enable_events=True,key="lujing"), sg.FolderBrowse()],
    [sg.Text('檔名字', size=(8, 1), justification='right'),
     sg.InputText(enable_events=True,key="wenjian")],
    [sg.Submit(tooltip='檔案'), sg.Cancel()]]

window = sg.Window('圖片提取器', layout, default_element_size=(40, 1), grab_anywhere=False)
while True:
    event, values = window.read()
    if event == "Submit":
        if values["Excel2"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功")

        if values["Excel1"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功")
        if values["Word"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功") 
        if values["PDF"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功")
    if event == "Cancel" or event == sg.WIN_CLOSED:
        break    
    if event == "注意":
        sg.Popup("作用講解：",
                 "Excel1 ：解析選定位置中所有的Excel檔案，無需在檔名處填寫",
                 "Excel2 ：解析選定位置中單個指定的Excel檔案，需在檔名處填寫",
                 "Word ：  解析選定位置中單個指定的docx結尾的檔案，無需在檔名處填寫",
                 "PDF ：   解析選定位置中單個指定的PDF檔案，需在檔名處填寫")
window.close()

效果呈現：

程式碼解析：做PySimpleGUI還是原來那個步驟：

匯入建立一些小部件建立視窗建立事件迴圈

當然，做GUI之前就是先想清楚自己的圖形互動頁面長什麼樣，像我就是現在紙上畫一個大概，這樣更有益於製作頁面。

初步先引用模組

第二步新增元素（小部件）到容器（layout）中，這裡先介紹一下用到到的部件：

“

Menu：顧名思義，這是選單欄，每個GUI都必帶一個選單欄來提示使用者該如何做，我們這裡用了menu_def這個佈局來完成選單的設定。

Frame：這個跟layout佈局完全相同，工作方式也一樣，他們都是容器元素。可以看到“選項”那裡是一個指示器的正方形，裡面有四個選項，作用就是這個。注意，&這個符號的作用是建立相同型別的選單，這裡只有注意事項這一個選單，故可以不用管，讀者如果想新增同樣的選單的話必須新增一個&。tearoff=True這個引數是選單欄中每個子選項上面加虛線。

Radio：單選按鈕。我們只可以在同樣的id上選擇一個選項。id就是指程式碼中的“ ra-dio1 ”。其中每個無線電函式的第一個引數是文字內容，這裡就是我們要進行提取的4個檔案格式。而“ size”就是位置，每行的第一個設定同樣的引數（10，1）。最後就是我們進行事件幫忙的繫結鍵，其中“ enable_events”可以不寫因為我們只是呼叫它而不用去對它產生事件。

Text：之前有講是不能改的正文內容。同樣這裡設定的位置引數（8，1），justification='right'有點類似我們平常用的單詞那個向右指向。

InputText：需要使用者輸入的正文內容。這裡有兩個需要我們填充的地方：檔案位置和檔名。這裡需要設定鍵，因為在後面事件繫結中我們需要呼叫檔案儲存路徑和檔名，在文中上半部分有提到過。

FolderBrowse：簡易的開啟檔案路徑操作，不用你去複製路徑。

Submit：確定按鈕，這裡繫結為執行提取文件圖片事件

Cancel：退出主程式按鈕。

”

第三步就是建立窗戶來容納這些元素佈置。

第四步建立事件迴圈，可以看到程式碼，都是一樣的套路：當用戶點選提交按鈕時系統將進行判斷你按的是該單選按鈕，長長的進行相對應的事件執行。當你點選cancel或者×時，就是退出主程式。當你按選單中的注意時，就會彈出一個指示告訴你這個系統怎麼用。

在事件迴圈中，我們用values[]的布林值來判斷我們選的是哪個單選按鈕，有讀者疑問為什麼不用event=，因為我們在第一個if當中用了eventso第二個if當中需要換一個判斷方法。

至此，GUI部分就搞定了！景點的讀者可以繼續在上面新增功能。

三，打包

我們將完整程式碼整合在一起，後安裝pyinstaller模組

pip install pyinstaller

如果你的上述專案程式碼檔案命名為：photo.py。那麼你要用以下命令進行打包

pyinstaller photo.py

最後打包成功之後，你會在py檔案所在的資料夾看到一個dist的子資料夾。進去之後，找到pachong.exe檔案並執行它即可。

注意，資料夾裡附帶了很多檔案，您可以刪除它。當然，如果嫌麻煩就直接從photo.py檔案用Python執行。

Python GUI程式設計：製作一個文件圖片提取軟體

前言

準備工作

一，提取各檔案內嵌圖片

1.1提取Word圖片思路

1.2提取PDF圖片思路

二，GUI框架建造

三，打包

Python GUI程式設計：製作一個文件圖片提取軟體

nodejs製作一個文件同步工具自動同步到gitee中的實現程式碼

Python GUI程式設計：關於 tkinter 怎麼才能寫出更好看的介面

Python GUI程式設計：tkinter 關於 ttkbootstrap 的使用

當面試官問：‘如何獲取文件中任意一個元素與文件頂部的距離？’

使用Python爬蟲庫BeautifulSoup遍歷文件樹並對標籤進行操作詳解

python GUI程式設計(Tkinter) 建立子視窗及在視窗上用圖片繪圖例項

Python GUI程式設計學習筆記之tkinter介面佈局顯示詳解

Python GUI程式設計學習筆記之tkinter控制元件的介紹及基本使用方法詳解

Python GUI程式設計學習筆記之tkinter事件繫結操作詳解

Python GUI程式設計學習筆記之tkinter中messagebox、filedialog控制元件用法詳解

python網路程式設計：socketserver的基本使用方法例項分析

python介面測試：在一個用例檔案中呼叫另一個用例檔案中定義的方法

python生成指定大小的txt文件(MB）

基於python實現生成指定大小txt文件

Python GUI程式設計(Tkinter)——Label and Button

Python GUI程式設計(Tkinter)

不到100行程式碼 Python製作一個九宮格圖片生成器，炫酷朋友圈！

Python利用名稱空間解析XML文件

Python小專案：開發一個動態時鐘小程式（附原始碼）

Python GUI程式設計：製作一個文件圖片提取軟體

前言

準備工作

一，提取各檔案內嵌圖片

1.1提取Word圖片思路

1.2提取PDF圖片思路

二，GUI框架建造

三，打包

相關推薦