基於深度學習的影象壓縮

阿新 • • 發佈：2018-12-30

近年來，深度學習在計算機視覺領域已經佔據主導地位，不論是在影象識別還是超分辨重現上，深度學習已成為圖片研究的重要技術，但它們的能力並不僅限於這些任務；現在深度學習技術已進入圖片壓縮領域。下面就說說神經網路在影象壓縮領域的應用。

當前主要圖片壓縮演算法

說到影象壓縮演算法，目前市面上影響力比較大的圖片壓縮技術是WebP和BPG

WebP：谷歌在2010年推出的一款可以同時提供有失真壓縮和無失真壓縮的圖片檔案格式，其以VP8為編碼核心，在2011年11月開始可以支援無損和透明色功能。目前facebook、Ebay等網站都已採用此圖片格式。

BPG：知名程式設計師、ffmpeg和QEMU等專案作者Fabrice Bellard推出的影象格式，它以HEVC為編碼核心，在相同體積下，BPG檔案大小隻有JPEG的一半。另外BPG還支援8位和16位通道等等。儘管BPG有很好的壓縮效果，但是HEVC的專利費很高，所以目前的市場使用比較少。

就壓縮效果來說，BPG更優於WebP，但是BPG採用的HEVC核心所帶來的專利費，導致其無法在市場進行大範圍使用。在這種情況下，運用深度學習來設計圖片壓縮演算法就應運而生。

早在 2016 年的時候，谷歌的研究人員就提出了一種基於神經網路的全解析度有損影象壓縮法《Full Resolution Image Compression with Recurrent Neural Networks》（利用迴圈神經網路進行全解析度影象壓縮）。

此後也陸續出現了不少這方面的研究，比如去年的IEEE大會上，來自哈爾濱工業大學的一組研究人員聯合提交了一篇論文《An End-to-End Compression Framework Based on Convolutional Neural Networks

》（基於卷積神經網路的端到端壓縮框架）。

他們在這篇論文中就提出了一種新的基於卷積神經網路的壓縮框架，能夠實現影象的高質量壓縮。這個框架由兩部分組成：一個 ComCNN 用於學習輸入影象中最優的緊湊表示，然後編碼影象，一個 RecCNN 用於重構出高質量的解碼影象。下面集智就說說這篇論文中利用深度學習技術進行影象壓縮的方法。

什麼是影象壓縮？

影象壓縮就是轉換影象的過程，讓影象佔據更少的空間。很多影象如果直接儲存的話或佔據很大的空間，所以出現了不少編解碼器，比如 JPEG 和 PNG，目的就是減少原始影象的大小。

有失真壓縮 VS 無失真壓縮

目前有兩種壓縮形式：有失真壓縮和無失真壓縮。從名字上就能看出來，無失真壓縮能夠恢復原始影象的全部資料，而有失真壓縮則在影象轉換過程中會丟失一些資料。

比如，JPG 就是一種有失真壓縮演算法，而 PNG 就是一種無失真壓縮演算法。

圖：無失真壓縮和有失真壓縮對比

注意右側影象上有很多塊狀的類似馬賽克的透明斑點，這就表示影象的資訊丟失了。同一顏色的相鄰畫素會被壓縮為一個區域以節省空間，但是也會導致實際畫素丟失資訊。當然了，像 JPEG，PNG 等這樣的演算法更復雜些，但上面這個例子應該能很直觀地展示出了有失真壓縮。無失真壓縮很好，不過最終會在硬碟上佔據大量空間。

還有一些更好的圖片壓縮方法，不會損失太多的影象資訊，但是壓縮速度很慢。不少還是使用迭代方法，意味著無法在多個 CPU 和 GPU 上並行執行。因而在日常生活中用起來不太實際。

引入卷積神經網路

如果有什麼東西能夠進行計算，還能近似實現，那就使用神經網路吧。在哈工大的這篇論文中，作者就使用了非常標準的卷積神經網路用來優化影象壓縮。他們的方法不僅能很好地的完成影象壓縮，而且還能應用平行計算，大幅提高了壓縮速度。

這種方法背後的原理就是卷積神經網路非常善於從影象中提取空間資訊，然後將資訊表示為更復雜的形式（比如，只儲存影象的“重要”位元）。作者想借助 CNN 的這種能力來更好地表示影象。

模型架構

作者提出了一種雙元網路架構，第一個網路會提取影象的資訊並生成緊湊的表示（ComCNN），然後用一個標準的編解碼器（比如 JPEG）處理該網路的輸出結果。再通過編解碼器處理後，影象會被傳遞到第二個神經網路，它會“修復”來自編解碼器的影象，試圖恢復原始影象的資訊，這個網路被作者稱為重構 CNN（RecCNN）。這兩個網路都經過迭代訓練，和 GAN 類似。