2017-ICLR End-To-End Optimized Image Compression論文筆記
摘要
我們描述了一種影象壓縮方法,包括非線性分析變換,均勻量化器和非線性合成變換。變換是在卷積線性濾波器和非線性啟用函式的三個連續階段中構建的。與大多數卷積神經網路不同,選擇聯合非線性來實現區域性增益控制的形式,其靈感來自用於模擬生物神經元的那些。使用隨機梯度下降的變體,我們在訓練影象資料庫上聯合優化整個模型的率失真效能,引入由量化器產生的不連續損失函式的連續代理。在某些條件下,鬆弛損失函式可以被解釋為生成模型的對數似然性,如變分自動編碼器所實現的。然而,與這些模型不同,壓縮模型必須在速率 - 失真曲線的任何給定點處操作,如權衡引數所指定的那樣。在一組獨立的測試影象中,我們發現優化的方法通常表現出比標準JPEG和JPEG 2000壓縮方法更好的速率 - 失真效能。更重要的是,我們觀察到所有影象在所有位元率下的視覺質量都有顯著提高,這得到了使用MS-SSIM的客觀質量估算的支援。
簡介
資料壓縮是工程中一個基礎且經過深入研究的問題,通常用於為具有最小熵的給定離散資料集合設計程式碼的目的而制定(Shannon,1948)。 該解決方案在很大程度上依賴於資料概率結構的知識,因此該問題與概率源建模密切相關。 然而,由於所有實際程式碼必須具有有限熵,因此必須將連續值資料(例如影象畫素強度的向量)量化為有限的離散值集,這會引入誤差。 在這種情況下,稱為有失真壓縮問題,必須權衡兩個競爭成本:離散化表示的熵(速率)和量化(失真)引起的誤差。 不同的壓縮應用,例如資料儲存或有限容量通道上的傳輸,需要不同的速率 - 失真權衡。
速率和失真的聯合優化是困難的。 沒有進一步的限制,高維空間中的最佳量化的一般問題是難以處理的(Gersho和Gray,1992)。 出於這個原因,大多數現有的影象壓縮方法通過將資料向量線性變換為合適的連續值表示,獨立地量化其元素,然後使用無損熵程式碼對所得到的離散表示進行編碼來進行操作(Wintz,1972; Netravali和Limb,1980年)。 由於轉換的核心作用,該方案稱為變換編碼。 例如,JPEG對畫素塊使用離散餘弦變換,JPEG 2000使用多尺度正交小波分解。 通常,變換編碼方法的三個分量 - 變換,量化器和熵編碼 - 被單獨優化(通常通過手動引數調整)。
我們開發了一種基於非線性變換的影象壓縮模型端到端優化框架(圖1)。在此之前,我們證明了一個由線性 - 非線性塊變換組成的模型,針對感知失真度量進行了優化,與針對均方誤差(MSE)優化的模型相比,在視覺上表現出優越性(Ball'e,Laparra和Simoncelli,2016 )。在這裡,我們針對MSE進行了優化,但使用了由線性卷積和非線性級聯構建的更靈活的變換。具體而言,我們使用廣義分裂歸一化(GDN)聯合非線性,其受到生物視覺系統中神經元模型的啟發,並且已經證明在高斯化影象密度方面是有效的(Ball'e,Laparra和Simoncelli,2015)。該級聯變換之後是均勻標量量化(即,每個元素被舍入到最接近的整數),這有效地實現了原始影象空間上的向量量化的引數形式。使用近似引數非線性逆變換從這些量化值重建壓縮影象。
對於沿速率 - 失真曲線的任何期望點,使用隨機梯度下降來聯合優化分析和合成變換的引數。為了在存在量化(幾乎在任何地方產生零梯度)的情況下實現這一點,我們使用基於概率模型的連續弛豫的代理損失函式,用加性均勻噪聲代替量化步長。寬鬆的率失真優化問題與用於擬合生成影象模型的問題有些相似,特別是變分自動編碼器(Kingma和Welling,2014; Rezende,Mohamed和Wierstra,2014),但我們施加的限制因素不同它在整個速率 - 失真曲線上近似於離散問題。最後,我們不是報告差分或離散熵估計,而是使用實際位元率實現熵程式碼並報告效能,從而證明了我們的解決方案作為完全有失真壓縮方法的可行性。
選擇前進,反轉和感知轉換
大多數壓縮方法基於正交線性變換,選擇該正交線性變換以減少資料中的相關性,從而簡化熵編碼。 但線性濾波器響應的聯合統計表現出強烈的高階依賴性。 通過使用聯合區域性非線性增益控制操作(Schwartz和Simoncelli,2001; Lyu,2010; Sinz和Bethge,2013),這些可以通過視覺神經元模型的啟發而顯著降低(Heeger,1992; Carandini和Heeger,2012)。 這種模型的級聯版本已被用於捕獲視覺轉換的多個階段(Simoncelli和Heeger,1998; Mante,Bonin和Carandini,2008)。 一些早期的結果表明,線上性塊變換編碼方法中結合區域性歸一化可以提高編碼效能(Malo等,2006),並且可以提高階聯卷積神經網路的物件識別效能(Jarrett等,2009)。 但是,這些情況下的歸一化引數未針對該任務進行優化。 在這裡,我們利用具有優化引數的廣義分裂歸一化(GDN)變換,我們先前已經證明在高斯化自然影象的區域性聯合統計中非常有效,遠遠超過線性變換的級聯,然後是逐點非線性( Ball'e,Laparra和Simoncelli,2015)。
請注意,深度卷積網路的一些訓練演算法包含“批量歸一化”,重新調整網路中線性濾波器的響應,以使其保持在合理的操作範圍內(Ioffe和Szegedy,2015)。 這種型別的歸一化與區域性增益控制的不同之處在於,重定標因子在所有空間位置上是相同的。 此外,一旦訓練完成,縮放參數通常是固定的,這將歸一化轉換為關於資料的仿射變換 - 與GDN不同,GDN是空間自適應的並且可以是高度非線性的。