1. 程式人生 > 其它 >【LeetCode - 1055】形成字串的最短路徑

【LeetCode - 1055】形成字串的最短路徑

  資料壓縮是保留相同或絕大部分資料前提下減小檔案大小的過程。 它的原理是消除不必要的資料或以更高效的格式重新組織資料。在進行資料壓縮時,你可以選擇使用有損方法或無損方法。有損方法會永久性地擦除掉一些資料,而無損方法則能保證持有全部的資料。使用哪類方法取決於你要讓你的檔案保持多大的精準度。

  本文會為你介紹6種不同的無損資料壓縮演算法,以及4種基於深度學習的影象/視訊壓縮演算法。

6款無損資料壓縮演算法

  無失真壓縮演算法通常被用於歸檔或其他高保真目的。這些演算法能夠讓你在確保檔案可被完整恢復的同時減少檔案大小。有很多種無失真壓縮演算法供你選擇。下面介紹6種常用的演算法:

1. LZ77

LZ77演算法釋出於1977年。作為很多其他無失真壓縮演算法的基礎,它使用了“滑動視窗”的概念。在這個概念中,LZ77管理了一個字典。該字典使用三元組的方式:

  • 偏移量(Offset):短語起始處於檔案開頭之間的距離
  • 行程長度(Run length):組成短語的字元數
  • 偏離字元:表明新短語的標記符,匹配結束後,前向緩衝區中的第一個符號

當檔案被解析時,字典會被實時更新以反映最新的壓縮資料和大小。舉個例子,如果一個檔案包含字串"abbadabba",那麼被壓縮到字典中的項就是"abb(0,1,'d')(0,3,'a')"。你可以看下下表的拆解過程:

這個例子中,被壓縮後的資料並不比初始資料小多少。但一般情況下,當檔案很長時,這種壓縮效果就會顯現出來。

2. LZR

LZR由Michael Rodeh於1981年提出,它是在LZ77的基礎上發展而來。這個演算法目標是成為LZ77的一個線性時間替換演算法,但編碼後Udell指標可能指向檔案的任意偏移量,意味著需要耗費可觀的記憶體,因此表現不如LZ77。

3. LZSS

LZSS,全稱Lempel-Ziv-Storer-Szymanski,於1982年提出。它也是旨在提升LZ77的一個演算法。它引入了一個方法能夠檢測是否真的減少了檔案大小。如果未能起到壓縮效果,就保持原來的輸入格式。LZSS還移除了對偏離字元的使用,只使用<偏移量,長度>對。這個壓縮演算法廣泛用於歸檔格式,如RAR以及網路資料的壓縮。

4.DEFLATE

DEFLATE演算法於1993年提出。作者是Phil Katz。該演算法結合了LZ77或LZSS前處理器與霍夫曼編碼。霍夫曼編碼是1952年提出的訴法。它是一種熵編碼,主要基於字元出現頻度分配編碼。

5. LZMA

LZMA演算法,全稱是Lempel-Ziv Markov chain Algorithm(LZMA),於1998年提出,是LZ77的改進版,旨在實現.7z格式的7-ZIp檔案歸檔。它使用鏈式壓縮方法,在位元而非位元組級別上應用修改後的LZ77演算法。該壓縮演算法的輸出稍後被算數編碼進行處理以便後續進一步壓縮。根據具體的實現不同,可能會引入其他的壓縮步驟。

6. LZMA2

LZMA2演算法於2009年提出,是LZMA的改良版。它提升了LZMA在多執行緒能力上的效能以及提升了處理不可壓縮型別資料的表現。

4種基於深度學習的影象/視訊壓縮演算法

除了上面介紹的靜態壓縮演算法,還有基於深度學習的壓縮演算法可供選擇。

1. 基於多層感知機的壓縮演算法

多層感知機(Multi-Layer Perceptron,MLP)技術使用多層神經元來獲取、處理以及輸出資料。它能夠被應用到資料降維任務和資料壓縮。首個基於MLP的演算法於1988年被提出,目前已經被應用到:

  • 二進位制編碼——標準的雙符號編碼
  • 量化——限制從連續集到離散集的輸入
  • 特定領域內的轉換——畫素級的資料變更

MLP演算法利用分解神經網路上一步的輸出來確定最佳的二進位制碼組合。後面,使用預測技術優化這個方法。預測技術能夠通過反向傳播基於相鄰資料來提升資料準確度。

2. DeepCoder -- 基於視訊壓縮的深度神經網路

DeepCoder是一個基於卷積神經網路(CNN)的框架,它是傳統視訊壓縮技術的替代。該模型為預測訊號和殘留訊號使用單獨的CNN。它使用標量量化技術和一個傳統的檔案壓縮演算法——霍夫曼編碼——將編碼特徵對映到一個二進位制流中。一般認為,該模型的效能要優於著名的H.264/AVC視訊編碼規範。

3. 基於CNN的壓縮演算法

CNN是分層的神經網路,通常用於影象識別和特徵檢測。當應用到壓縮時,這些神經網路使用卷積操作來計算相鄰畫素點之間的相關性。CNN展示出了比基於MLP演算法更好的壓縮結果,提升了超解析度下的效能以及減少了偽影。另外,基於CNN的壓縮還提升了JPEG影象的品質,因為它減少了峰值信噪比(PSNR)和結構相似性(SSIM)。基於CNN的壓縮通過使用熵估計法還實現了HEVC的效能。

4. 基於生成式對抗網路(GAN)的壓縮演算法

GAN屬於神經網路的一種,它使用兩個神經網路彼此競爭的方式來產生更精確的分析和預測。最早基於GAN的壓縮演算法於2017年被提出。這些演算法的檔案壓縮比例是其他常見方法(如JPEG、WebP等)的2.5倍。你可以使用基於GAN的方法通過並行化處理來實現實時壓縮。主要的原理是基於最相關的特徵來壓縮圖片。當解碼的時候,演算法基於這些特徵來重建影象。和基於CNN演算法相比,基於GAN的壓縮演算法通過消除對抗損失能夠產生更高品質的影象。

you are the best!