1. 程式人生 > >Python 學習入門(16)—— zipfile

Python 學習入門(16)—— zipfile

zipfile 是python裡用來做zip格式編碼的壓縮和解壓縮的,由於是很常見的zip格式,所以這個模組使用頻率也是比較高。

zipfile裡有兩個非常重要的class, 分別是ZipFile和ZipInfo, 在絕大多數的情況下,只需要使用這兩個class就可以。

1)ZipFile是主要的類,用來建立和讀取zip檔案;

2)ZipInfo是儲存的zip檔案的每個檔案的資訊的。

1)簡單應用
如果你僅僅是希望用python來做壓縮和解壓縮,那麼就不用去翻文件了,這裡提供一個簡單的用法,讓你一看就能明白。 

#!/usr/bin/python
# -*- coding:utf-8 -*-
#
# http://blog.ithomer.net

import zipfile

def test1():

    for i in range(1, 4):
        f = open("file" + str(i) + ".txt", 'w')
        f.write(str(i))
        f.close()

    f = zipfile.ZipFile('filename.zip', 'w', zipfile.ZIP_DEFLATED)
    f.write('file1.txt')
    f.write('file2.txt')
    f.write('file3.txt')
    f.close()

    f = zipfile.ZipFile('filename.zip')
    f.extractall()
    f.close()

if __name__ == "__main__":
    test1()

1.1 zipfile.ZipFile(fileName[, mode[, compression[, allowZip64]]]) 
fileName是沒有什麼疑問的了。 
mode和一般的檔案操作一樣,'r'表示開啟一個存在的只讀ZIP檔案;'w'表示清空並開啟一個只寫的ZIP檔案,或建立一個只寫的ZIP檔案;'a'表示開啟一個ZIP檔案,並新增內容。 
compression表示壓縮格式,可選的壓縮格式只有2個:ZIP_STORE;ZIP_DEFLATED。ZIP_STORE是預設的,表示不壓縮;ZIP_DEFLATED表示壓縮,如果你不知道什麼是Deflated,那麼建議你去補補課。 
allowZip64為True時,表示支援64位的壓縮,一般而言,在所壓縮的檔案大於2G時,會用到這個選項;預設情況下,該值為False,因為Unix系統不支援。 


1.2 zipfile.close() 
說真的,這個沒什麼可說的,如果有的話,那就是你寫入的任何檔案在關閉之前不會真正寫入磁碟。 


1.3 zipfile.write(filename[, arcname[, compress_type]]) 
acrname是壓縮檔案中該檔案的名字,預設情況下和filename一樣 
compress_type的存在是因為zip檔案允許被壓縮的檔案可以有不同的壓縮型別。 


1.4 zipfile.extractall([path[, member[, password]]]) 
path解壓縮目錄,沒什麼可說的 
member需要解壓縮的檔名兒列表 
password當zip檔案有密碼時需要該選項 


對於簡單的應用,這麼多就夠了。 


2)高階應用
2.1 zipfile.is_zipfile(filename) 
判斷一個檔案是不是壓縮檔案 
2.2 ZipFile.namelist() 
返回檔案列表 
2.3 ZipFile.open(name[, mode[, password]]) 
開啟壓縮文件中的某個檔案 
2.4  ZipFile.infolist() 
2.5  ZipFile.getinfo(name) 
上述檔案返回ZipInfo物件,只不過一個返回的是列表,一個返回的是一個ZipInfo 

示例:

def test2():
    # 判斷是不是壓縮檔案
    print zipfile.is_zipfile('filename.zip')

    # 檔案列表
    f = zipfile.ZipFile('filename.zip')
    print f.namelist()          # ['file1.txt', 'file2.txt', 'file3.txt']
    print f.infolist()                  # [<zipfile.ZipInfo object at 0x7fdcfddd0438>, <zipfile.ZipInfo object at 0x7fdcfddd0500>, <zipfile.ZipInfo object at 0x7fdcfddd0370>]
    print f.getinfo('file1.txt')        # <zipfile.ZipInfo object at 0x7fdcfddd0438>
    f.close()


ZipInfo類 
2.6、 ZipInfo.filename 
2.7 ZipInfo.date_time 
          返回值的格式為(year,month,date,hour,minute,second) 
2.8 ZipInfo.compress_type 
2.9 ZipInfo.comment 
2.10ZipInfo.extra 
2.11ZipInfo.create_system 
2.12ZipInfo.extract_version 
2.13ZipInfo.reserved 總是0 
2.14ZipInfo.flag_bits 
2.15ZipInfo.volume 
2.16ZipInfo.internal_attr 
2.17ZipInfo.external_attr 
2.18ZipInfo.header_offset 
2.19ZipInfo.CRC 
2.20ZipInfo.file_size 
2.21ZipInfo.compress_size 
2.22ZipFile.testzip() 
檢查每個檔案和它對應的CRC,如果有錯誤返回對應的檔案列表 
2.23ZipFile.setpassword(password) 
2.24ZipFile.read(name[,password]) 
返回對應的檔案 
2.25ZipFile.printdir() 
列印壓縮資料夾的資訊 
2.26ZipFile.writestr(zipinfo_or_arcname, bytes) 


PyZipFile類 
zipfile.PyZipFile除了上面的方法和屬性之外,還有一個特殊的方法 
PyZipFile.writepy(pathname,basename) 
一般情況下,僅僅壓縮.pyc和.pyo檔案,不壓縮.py檔案 

zip檔案格式資訊 
一個 ZIP 檔案由三個部分組成:壓縮原始檔資料區+壓縮原始檔目錄區+壓縮原始檔目錄結束標誌 
1、壓縮原始檔資料區 
在這個資料區中每一個壓縮的原始檔/目錄都是一條記錄,記錄的格式如下: [檔案頭+ 檔案資料 + 資料描述符] 
   a、檔案頭結構 
   組成 長度 
   檔案頭標記 4 bytes (0x04034b50) 
   解壓檔案所需 pkware 版本 2 bytes 
   全域性方式位標記 2 bytes 
   壓縮方式 2 bytes 
   最後修改檔案時間 2 bytes 
   最後修改檔案日期 2 bytes 
   CRC-32校驗 4 bytes 
   壓縮後尺寸 4 bytes 
   未壓縮尺寸 4 bytes 
   檔名長度 2 bytes 
   擴充套件記錄長度 2 bytes 
   檔名 (不定長度) 
   擴充套件欄位 (不定長度) 

   b、資料描述符 
  組成 長度 
   CRC-32校驗 4 bytes 
   壓縮後尺寸 4 bytes 
   未壓縮尺寸 4 bytes 
   這個資料描述符只在全域性方式位標記的第3位設為1時才存在(見後詳解),緊接在壓縮資料的最後一個位元組後。這個資料描述符只用在不能對輸出的 ZIP 檔案進行檢索時使用。例如:在一個不能檢索的驅動器(如:磁帶機上)上的 ZIP 檔案中。如果是磁碟上的ZIP檔案一般沒有這個資料描述符。 

2、壓縮原始檔目錄區 
   在這個資料區中每一條紀錄對應在壓縮原始檔資料區中的一條資料 
   組成 長度 
   目錄中檔案檔案頭標記 4 bytes (0x02014b50) 
   壓縮使用的pkware 版本 2 bytes 
   解壓檔案所需 pkware 版本 2 bytes 
   全域性方式位標記 2 bytes 
   壓縮方式 2 bytes 
   最後修改檔案時間 2 bytes 
   最後修改檔案日期 2 bytes 
   CRC-32校驗 4 bytes 
   壓縮後尺寸 4 bytes 
   未壓縮尺寸 4 bytes 
   檔名長度 2 bytes 
   擴充套件欄位長度 2 bytes 
   檔案註釋長度 2 bytes 
   磁碟開始號 2 bytes 
   內部檔案屬性 2 bytes 
   外部檔案屬性 4 bytes 
   區域性頭部偏移量 4 bytes 
   檔名 (不定長度) 
   擴充套件欄位 (不定長度) 
   檔案註釋 (不定長度) 

3、壓縮原始檔目錄結束標誌 
   組成 長度 
   目錄結束標記 4 bytes (0x02014b50) 
   當前磁碟編號 2 bytes 
   目錄區開始磁碟編號 2 bytes 
   本磁碟上紀錄總數 2 bytes 
   目錄區中紀錄總數 2 bytes 
   目錄區尺寸大小 4 bytes 
   目錄區對第一張磁碟的偏移量 4 bytes 
   ZIP 檔案註釋長度 2 bytes 
   ZIP 檔案註釋 (不定長度)