1. 程式人生 > 其它 >Python工具箱系列(十六)

Python工具箱系列(十六)

前面介紹了對稱加密演算法,本文將介紹密碼學中另一類重要應用:訊息摘要(Digest),什麼是訊息摘要?簡單的定義是:對一份資料,進行一個單向的Hash函式,生成一個固定長度的Hash值,這個值就是這份資料的摘要,也稱為指紋。

常見的摘要演算法有:

  • MD5
  • SHA1
  • SHA256
  • 其它

特點如下:

  • 無論輸入的訊息有多長,計算出來的訊息摘要的長度總是固定的。例如應用MD5演算法摘要的訊息有128個位元位,一般認為,摘要的最終輸出越長,該摘要演算法就越安全。變長輸入,定長輸出。

  • 一般地,只要輸入的訊息不同,對其進行摘要以後產生的摘要訊息也必不相同;但相同的輸入必會產生相同的輸出。

  • 訊息摘要函式是單向函式,即只能進行正向的資訊摘要,而無法從摘要中恢復出任何的訊息,甚至根本就找不到任何與原資訊相關的資訊。

  • 優秀的摘要演算法,沒有人能從中找到“碰撞”,即無法找到兩條不同的訊息,使它們的摘要相同。

在python3中,關於hash加密演算法都放在hashlib這個標準庫中,如SHA1、SHA224、SHA256、SHA384、SHA512和MD5演算法等。md5演算法以前單列,而在python3的標準庫中,也放在hashlib庫中。在不同的平臺上hashlib的能力不同,使用以下程式碼進行檢測。

import hashlib

def capacity():
    print(hashlib.algorithms_guaranteed)
    print(hashlib.algorithms_available)
    
capacity()

MD5即Message-Digest Algorithm 5(資訊-摘要演算法5),用於確保資訊傳輸完整一致。是計算機廣泛使用的雜湊演算法之一(又稱摘要演算法、雜湊演算法)。

MD5演算法具有以下特點:

  • 壓縮性:任意長度的資料,算出的MD5值長度都是固定的。

  • 容易計算:從原資料計算出MD5值很容易。

  • 抗修改性:對原資料進行任何改動,哪怕只修改1個位元組,所得到的MD5值都有很大區別。

  • 強抗碰撞:已知原資料和其MD5值,想找到一個具有相同MD5值的資料(即偽造資料)是非常困難的。

MD5演算法雖然應用廣泛,但是它也有重大缺陷。

  • 2010年CMU軟體工程機構認為MD5摘要演算法已經在密碼學上被破譯並且不適合使用。

  • 2012年惡意軟體利用了MD5的漏洞並偽造了微軟的數字簽名。

雖然md5存在重大問題,但在普通環境下,md5並非完全不可用,從時間、成本以及要處理物件綜合考慮,仍然可以用md5做一些基本的工作。下面演示md5演算法庫的使用演示。

import hashlib

def md5_demo(inputstr,codingname):
    return hashlib.md5(inputstr.encode(encoding=codingname)).hexdigest()
    
codingnamelist = ['UTF-8','GBK','GB2312','GB18030']
data = ['歡迎關注陝西華路','stay hungry stay foolish']

for item in data:
    print(item)
    for cdn in codingnamelist:
        print(md5_demo(item,cdn))
    print()

這段程式碼演示了中文與英文字串,在使用不同編碼方式下生成的不同的md5值。對於中文而言,不同的編碼會導致不同的輸出。

歡迎關注陝西華路
5da5f58a3f902c739c3860b28afed47c
de60ee00e3144efbd37c38f1f6579fa8
de60ee00e3144efbd37c38f1f6579fa8
de60ee00e3144efbd37c38f1f6579fa8

可以看出,使用UTF-8編碼會與其它編碼產生不同的MD5值。而對於英文來說,則沒有區別。

stay hungry stay foolish
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34
d0653ce06bdc9fad39d9ac2312eb8b34

md5演算法除了對字串外,對於任何位元組流物件都可以使用,尤其對檔案的處理更是極為有用,例如:

  • 下載檔案時進行確認。從網際網路下載檔案時,為了確保檔案下載時沒有出現錯誤,或者被篡改(植入病毒),可以對下載後的檔案進行md5的計算,並且與提供者釋出的md5值進行比較,如果相同則可以放心使用。

  • 對目錄下的不同名稱的檔案去重。相對於根據檔名稱、大小與時間這些非常容易變化的不可靠資訊來說,對檔案進行md5計算去重是非常準確的。相同的md5可以確定(極小概率不正確)是相同的檔案。假設一個圖片檔案,被多次複製更名成為不同的檔名,經過md5計算完全可以判斷為同一個檔案。

對檔案的md5計算也非常簡單,以下程式碼簡單的演示了主要程式碼片斷。

    @property
    def md5(self) -> str:
        """
        對檔案做MD5操作,並且返回對應的MD5值

        Returns:
            str: md5
        """
        with self._filename.open('rb') as fr:
            return hashlib.md5(fr.read()).hexdigest()

使用預設的方式對所有檔案進行相同的md5計算,就不必顧及編碼格式了。