1. 程式人生 > 實用技巧 >Python GUI程式設計:製作一個文件圖片提取軟體

Python GUI程式設計:製作一個文件圖片提取軟體

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章最早早起Python,作者GUI工作組

私信回覆“資料”,即可免費領取Python實戰案例講解視訊

Python GUI製作視訊解析神器,全網視訊免費看

https://www.bilibili.com/video/BV1tz4y1o7Yc/

前言

本文將進一步講解如何用Python提取PDF與Word中圖片,並結合之前講解過的GUI框架PysimpleGUI,做一個多檔案圖片提取軟體,效果如下:

本文主要將分為以下部分講解:

  • PDF,Word,Excel檔案圖片提取
  • 構造圖片提取器GUI框架
  • 整合程式碼並打包

主要涉及的Python模組有:

  • PIL
  • PySimpleGUI
  • re
  • win32
  • os
  • zipfile
  • fitz

準備工作

首先使用pip安裝相關依賴模組

pip install pillow   #這是對模組PTL的安裝
pip install pypiwin32    #這是對win32的安裝
pip install os 
pip install zipfile
pip install PyMuPDF  #這是引用fitz對PDF操作的包
pip install PySimpleGui

一,提取各檔案內嵌圖片

在之前的文章有講過,讀取Excel有兩種方法。一種是將字尾名改成.zip格式進行提取,一種是通過Pillow模組對Excel進行圖片複製與儲存。而在我們這次3種檔案格式的圖片提取當中,Excel提取圖片方法和之前一樣。

Word中圖片提取方法和通過.zip提取方法類似,PDF提取圖片方法要用到新的模組。由於Excel中提取圖片的兩種方法在之前的文章講過,故這裡只講解PDF和Word中的提取方法。

1.1提取Word圖片思路

和以前一樣,我們先看程式碼再講解

path = values["lujing"]  
count = 1
for file in os.listdir(path):
    new_file = file.replace(".docx",".zip")
    os.rename(os.path.join(path,file),os.path.join(path,new_file))
    count
+=1 number = 0 craterDir = values["lujing"] + '/' # 存放zip檔案的資料夾路徑 saveDir = values["lujing"] + '/' # 存放圖片的路徑 list_dir = os.listdir(craterDir) # 獲取所有的zip檔名 for i in range(len(list_dir)): if 'zip' not in list_dir[i]: list_dir[i] = '' while '' in list_dir: list_dir.remove('') for zip_name in list_dir: # 預設模式r,讀 azip = zipfile.ZipFile(craterDir + zip_name) # 返回所有資料夾和檔案 namelist = (azip.namelist()) for idx in range(0,len(namelist)): if namelist[idx][:11] == 'word/media/':#圖片是在這個路徑下 img_name = saveDir + str(number)+'.jpg' f = azip.open(namelist[idx]) img = Image.open(f) img = img.convert("RGB") img.save(img_name,"JPEG") number += 1 azip.close() #關閉檔案,必須有,釋放記憶體

這裡的程式碼和GUI中通過.zip方式提取Excel圖片的程式碼思路是一樣的。

path = values["lujing"]這裡是讀取GUI中鍵為**“ lujing” **的值,也即檔案儲存位置,用於os模組讀取與操作。

new_file = file.replace(".docx",".zip")是替換字尾名,如果是Excel的話,就把.docx改成.xlsx或xls。

craterDir = values["lujing"] + '/'這是存放zip檔案的資料夾路徑,注意此處重新到的鍵為“ lujing”的值後要在後面新增/。

saveDir = values["lujing"] + '/'這是存放圖片的路徑,同理,和上面一樣加個/號。

最後說一下與Excel提取比例,最大的不同是下面的程式碼

if namelist[idx][:11] == 'word/media/':細心的讀者可以發現,與Excel提取比例,中括號裡面的值改了。

很好理解,我們可以列印名稱列表[idx],可以發現在索引0到10是'word/media/'所在位置。而在Excel中是前9位。

感興趣的讀者可以翻看之前的文章,那裡有對這段程式碼的詳細解析,這裡不多做介紹。

1.2提取PDF圖片思路

和之前的excel提取圖片一樣,在一個pdf中加入4張圖片,我們將它壓縮為zip檔案

讀取後

相關程式碼如下:

def pdf2pic(path, pic_path):
    doc = fitz.open(path)
    nums = doc._getXrefLength()
    imgcount = 0 
    for i in range(1, nums):
        text = doc._getXrefString(i)
        if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
            continue
            checkXO = r"/Type(?= */XObject)"
            checkIM = r"/Subtype(?= */Image)"
            isXObject = re.search(checkXO, text)
            isImage = re.search(checkIM, text)
            if not isXObject or not isImage:
                continue
                imgcount += 1
                pix = fitz.Pixmap(doc, i)
                img_name = "img{}.png".format(imgcount)
                if pix.n < 5:
                    try:
                        pix.writePNG(os.path.join(pic_path, img_name))
                        pix = None
                        except:
                            pix0 = fitz.Pixmap(fitz.csRGB, pix)
                            pix0.writePNG(os.path.join(pic_path, img_name))
                            pix0 = None
if __name__ == '__main__':
 path = values["lujing"]+ '/' + values["wenjian"]
    pic_path = values["lujing"]
    pdf2pic(path, pic_path)

先說一下這段程式碼的思路吧,由於PDF不能像Excel和Word一樣改字尾名進行提取,故這裡運用python的一個模組PyMuPDF,過程如下

  • 閱讀PDF並遍歷每一頁
  • 篩選無用的元素並用正則表示式獲取圖片
  • 生成並儲存圖片

fitz.open(path)是開啟PDF資料夾,這裡的路徑是需要在GUI介面中獲取使用者的檔案放置路徑於檔名的。

for i in range(1, nums):
    text = doc._getXrefString(i)

這是我們的第一步重新並存歷,將重新引入到的字串內容放入到文字中

if ('Width 2550' in text) and ('Height 3300' in text) or ('thumbnail' in text):
 continue

由於PDF每頁的背景就是一張圖片,故我們可以通過寬高來尋找這些背景圖片並用continue把他們剔除。

checkXO = r"/Type(?= */XObject)"
checkIM = r"/Subtype(?= */Image)"
isXObject = re.search(checkXO, text)
isImage = re.search(checkIM, text)
if not isXObject or not isImage:
    continue

我們通過實驗發現圖片所對應的字串在checkxo與checkIM這兩個中。故用正則表示式在文字中進行索引提取,用到了re模組的搜尋函式。如果不是這兩個字串就用繼續剔除。

pix = fitz.Pixmap(doc, i)
img_name = "img{}.png".format(imgcount)
if pix.n < 5:
 try:
  pix.writePNG(os.path.join(pic_path, img_name))
  pix = None
 except:
  pix0 = fitz.Pixmap(fitz.csRGB, pix)
  pix0.writePNG(os.path.join(pic_path, img_name))
  pix0 = None

這是最後一步生成與儲存圖片

pix = fitz.Pixmap(doc, i)是生成影象語句,doc代表PDF檔案,i代表遍歷每個圖片物件的索引值。

img_name = "img{}.png".format(imgcount)是設定影象名語句,用提取到的圖片的序列號作為命名格式。

如果pix.n <5,可以直接存為PNG,否則將進行RGB變換在儲存。

由於程式碼採用的是def函式編寫模式,故最後還要一個函式的初始化:if __name__ == '__main__':

至此,3種檔案格式(Excel,Word,PDF)圖片提取方法已全部講解,接下來就是重中之重GUI生成了。

二,GUI框架建造

先看完整程式碼:

import PySimpleGUI as sg
sg.ChangeLookAndFeel('GreenTan')   #更換主題
menu_def = [['&使用說明', ['&注意']]]
layout = [
    [sg.Menu(menu_def, tearoff=True)],
    [sg.Frame(layout=[
    [sg.Radio('Excel1', "RADIO1",size=(10,1),key="Excel1"),  sg.Radio('Word', "RADIO1",default=True,key="Word")],
    [sg.Radio('Excel2', "RADIO1", enable_events=True, size=(10,1),key="Excel2"), sg.Radio('PDF', "RADIO1",key="PDF")]], title='選項',title_color='red', relief=sg.RELIEF_SUNKEN, tooltip='Use these to set flags')],
    [sg.Text('檔案位置', size=(8, 1), auto_size_text=False, justification='right'),
     sg.InputText(enable_events=True,key="lujing"), sg.FolderBrowse()],
    [sg.Text('檔名字', size=(8, 1), justification='right'),
     sg.InputText(enable_events=True,key="wenjian")],
    [sg.Submit(tooltip='檔案'), sg.Cancel()]]

window = sg.Window('圖片提取器', layout, default_element_size=(40, 1), grab_anywhere=False)
while True:
    event, values = window.read()
    if event == "Submit":
        if values["Excel2"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功")

        if values["Excel1"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功")
        if values["Word"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功") 
        if values["PDF"] == True:
   '''
   事件繫結
   '''
            sg.Popup("提取成功")
    if event == "Cancel" or event == sg.WIN_CLOSED:
        break    
    if event == "注意":
        sg.Popup("作用講解:",
                 "Excel1 :解析選定位置中所有的Excel檔案,無需在檔名處填寫",
                 "Excel2 :解析選定位置中單個指定的Excel檔案,需在檔名處填寫",
                 "Word :  解析選定位置中單個指定的docx結尾的檔案,無需在檔名處填寫",
                 "PDF :   解析選定位置中單個指定的PDF檔案,需在檔名處填寫")
window.close()           

效果呈現:

程式碼解析:做PySimpleGUI還是原來那個步驟:

匯入 建立一些小部件建立視窗建立事件迴圈

當然,做GUI之前就是先想清楚自己的圖形互動頁面長什麼樣,像我就是現在紙上畫一個大概,這樣更有益於製作頁面。

初步先引用模組

第二步新增元素(小部件)到容器(layout)中,這裡先介紹一下用到到的部件:

Menu:顧名思義,這是選單欄,每個GUI都必帶一個選單欄來提示使用者該如何做,我們這裡用了menu_def這個佈局來完成選單的設定。

Frame:這個跟layout佈局完全相同,工作方式也一樣,他們都是容器元素。可以看到“選項”那裡是一個指示器的正方形,裡面有四個選項,作用就是這個。注意,&這個符號的作用是建立相同型別的選單,這裡只有注意事項這一個選單,故可以不用管,讀者如果想新增同樣的選單的話必須新增一個&。tearoff=True這個引數是選單欄中每個子選項上面加虛線。

Radio:單選按鈕。我們只可以在同樣的id上選擇一個選項。id就是指程式碼中的“ ra-dio1 ”。其中每個無線電函式的第一個引數是文字內容,這裡就是我們要進行提取的4個檔案格式。而“ size”就是位置,每行的第一個設定同樣的引數(10,1)。最後就是我們進行事件幫忙的繫結鍵,其中“ enable_events”可以不寫因為我們只是呼叫它而不用去對它產生事件。

Text:之前有講是不能改的正文內容。同樣這裡設定的位置引數(8,1),justification='right'有點類似我們平常用的單詞那個向右指向。

InputText:需要使用者輸入的正文內容。這裡有兩個需要我們填充的地方:檔案位置和檔名。這裡需要設定鍵,因為在後面事件繫結中我們需要呼叫檔案儲存路徑和檔名,在文中上半部分有提到過。

FolderBrowse:簡易的開啟檔案路徑操作,不用你去複製路徑。

Submit:確定按鈕,這裡繫結為執行提取文件圖片事件

Cancel:退出主程式按鈕。

第三步就是建立窗戶來容納這些元素佈置。

第四步建立事件迴圈,可以看到程式碼,都是一樣的套路:當用戶點選提交按鈕時系統將進行判斷你按的是該單選按鈕,長長的進行相對應的事件執行。當你點選cancel或者×時,就是退出主程式。當你按選單中的注意時,就會彈出一個指示告訴你這個系統怎麼用。

在事件迴圈中,我們用values[]的布林值來判斷我們選的是哪個單選按鈕,有讀者疑問為什麼不用event=,因為我們在第一個if當中用了eventso第二個if當中需要換一個判斷方法。

至此,GUI部分就搞定了!景點的讀者可以繼續在上面新增功能。

三,打包

我們將完整程式碼整合在一起,後安裝pyinstaller模組

pip install pyinstaller

如果你的上述專案程式碼檔案命名為:photo.py。那麼你要用以下命令進行打包

pyinstaller photo.py

最後打包成功之後,你會在py檔案所在的資料夾看到一個dist的子資料夾。進去之後,找到pachong.exe檔案並執行它即可。

注意,資料夾裡附帶了很多檔案,您可以刪除它。當然,如果嫌麻煩就直接從photo.py檔案用Python執行。