1. 程式人生 > 實用技巧 >ECCV2020論文-稀疏性表示-Neural Sparse Representation for Image Restoration翻譯

ECCV2020論文-稀疏性表示-Neural Sparse Representation for Image Restoration翻譯

Neural Sparse Representation for Image Restoration

用於影象復原的神經稀疏表示

Abstract

在基於稀疏編碼的影象恢復模型中,基於稀疏表示的魯棒性和有效性,我們研究了深度網路中神經元的稀疏性。我們的方法在結構上對隱藏神經元施加稀疏約束。稀疏性約束有利於基於梯度的學習演算法,並可用於各種網路的卷積層。通過僅在非零元件上執行,神經元的稀疏性使計算節省而不影響精度。同時,該方法可以在不增加計算成本的情況下提高模型的表示維數和模型容量。實驗表明,對於影象超解析度、去噪和影象壓縮偽影去除等多個影象恢復任務,稀疏表示是深度神經網路的關鍵。

Introduction

稀疏表示在影象恢復問題中發揮著關鍵作用,如影象超解析度[1,2,3]、去噪[4]、去除壓縮偽影[5]等[6,7]。這些任務本質上是病態的,輸入訊號通常沒有足夠的資訊,而輸出訊號在相同的輸入下有無窮多個解。因此,人們普遍認為稀疏表示在處理解決方案的多樣性方面更加魯棒。

稀疏編碼中的稀疏表示通常是高維的,但有有限的非零分量。輸入訊號表示為字典中令牌的稀疏線性組合。高維意味著更大的字典大小,通常會導致更好的恢復精度,因為一個更大的字典能夠更徹底地取樣底層訊號空間,從而更準確地表示任何查詢訊號。此外,非零元素的稀疏極限數作為一種基本的影象先驗,被廣泛地研究和利用來增強復原的魯棒性。稀疏性也通過忽略零部分來提高計算效率。

用於影象恢復的深度卷積神經網路擴充套件了基於稀疏編碼的重複級聯結構方法。為了提高[8]的效能,本文首先引入了基於深度網路的方法,並在概念上與基於稀疏編碼的方法相聯絡。由非線性啟用層連線的兩個卷積層的簡單網路可以解釋為:啟用表示稀疏表示;非線性加強了稀疏性,卷積核由字典組成。SRResNet[9]擴充套件了跳越連線的基本結構,形成一個殘差塊,並將大量的殘差塊級聯,構成很深的殘差網路。

由於深度網路在推理過程中具有前饋特性,因此不能將迭代優化作為稀疏編碼來解決隱藏表示的稀疏性問題。神經元的稀疏性通常是通過[10]中的ReLU啟用來實現的,這種啟用通過將每個神經元中的負值分別設定為0。不過,它對隨機向量的50%稀疏性與對非零分量總數的稀疏性定義相去甚遠。相反,稀疏性限制在模型引數中活躍應用以實現網路剪枝。然而,在剪枝網路中,隱藏表示的維數降低了,精度降低了。

在本文中,我們提出一種方法,可以在結構上加強對深度網路中隱藏神經元的稀疏約束,同時保持高維的表示。對於高維神經元,我們沿著通道將它們分成若干組,並且每次只允許一組神經元是非零的。利用小邊網路根據上下文特徵對非稀疏群進行自適應選擇。當只在非零組上執行時,計算也被儲存。但由於選擇操作不可微,很難嵌入邊網路進行聯合訓練。我們將稀疏約束放寬為軟約束,並將其近似簡化為多個卷積核的稀疏線性組合,而不是硬選擇。我們進一步引入額外的基數維,將稀疏性預測分解成子問題,通過分解每個稀疏組並在引數的基數無關組合後進行連線。

為了證明神經稀疏表示的重要性,我們對影象恢復任務進行了廣泛的實驗,包括影象超解析度、去噪和壓縮偽影去除。實驗結果表明:(1)專用約束對實現神經稀疏表示和深度網路有益;(2)在相同大小的model footprint的情況下,我們的方法可以顯著降低計算成本,提高精度;(3)該方法可以在不增加計算成本的情況下,顯著提高模型容量和精度。

Related work

2.1 Sparse coding and convolutional networks稀疏編碼與卷積網路

本文簡要回顧了稀疏性在影象恢復中的應用及其與卷積網路的關係。以影象超解析度為例進行影象恢復,基於稀疏編碼的方法[1]假設輸入影象訊號X可以用一個稀疏線性組合α在字典D1上表示,它通常是從訓練影象中學習到的,

在[3]中,恢復後的影象訊號Y的耦合字典D2與D1以及它的稀疏表示α聯合學習學習,通過:

卷積網路由層疊的卷積層和非線性的啟用函式組成,可以用[8]稀疏編碼的概念來解釋。以一小塊網路為例,該網路有兩個卷積層,核為W1、W2,函式為非線性F,影象恢復過程可以形式化為,

對於W1的卷積操作∗等價於將輸入影象訊號X投影到字典D1上。W2的卷積操作∗對應於訊號表示在字典D2上的投影。這兩種卷積層結構被廣泛用作基本殘塊,並與多個塊疊加形成非常深的殘塊網路[9,12]。

隱含表示的維數或每個卷積層的核數決定了字典記憶體的大小和模型的學習能力。然而,與稀疏編碼不同,深層模型中的表示維數通常受到執行速度或記憶體使用的限制。

2.2 Sparsity in parameters and pruning引數和剪枝中的稀疏性

研究模型引數的稀疏性可以潛在地提高魯棒性[13],但是引數的稀疏性並不是產生稀疏表示的充分必要條件。此外,channel上的群稀疏性和引數趨近於零的抑制可以實現節點剪枝[14,11, 15, 16, 17],極大地降低了推理計算成本。儘管效率很高,但節點剪枝降低了表示的維數,而不是稀疏性,限制了表示的多樣性,並導致精度迴歸。

圖1,簡化矩陣乘法示例中帶有稀疏隱節點的兩層神經網路的計算約簡說明。左:稀疏約束網路,僅允許c個隱藏節點的一組在總數為kc節點上不為零。右:僅使用w1i和w2j簡化計算,因為其他啟用節點為零。(灰度反映矩陣值的大小。矩陣乘法是從右到左的順序。)

2.3 Thresholding and gating

以ReLU[18]為例,閾值函式通過將負值過濾為零,起到了類似於增強[10]稀疏性約束的作用,並且與之前的啟用函式,即雙曲正切函式相比,其效能有顯著改善。雖然ReLU統計上只給出了隨機向量上50%的稀疏性,但在Eq. 1中的稀疏性定義之間仍然存在顯著的差距。例如,在Squeeze-and-Excitation中[19,20],門控機制使用自適應的sigmoid型門來scalse隱藏的神經元,並在顯著提高準確性的同時稍微提高了稀疏性。在Eq. 1中,閾值設定和門控都獨立地應用於隱藏神經元,並不能內在地保證全域性稀疏性。

Methodology

提出了一種新的稀疏約束來實現深度神經網路的稀疏表示。寬鬆的軟限制更有利於基於梯度的訓練。附加的基數維改進了約束條件,提高了稀疏表示的多樣性。

3.1 sparsity in hidden neurons隱神經元中的稀疏性

與2.3節中討論的僅考慮每個神經元的區域性稀疏性的方法不同,我們的方法加強了組間的全域性稀疏性。具體來說,將隱藏神經元分為k組,每組c個節點,只允許其中一組包含非零值。相應地,卷積核也可以根據連線的隱藏神經元進行劃分。那麼只需要計算連線到非零神經元的核心。形式上的,對於公式3中的網路結構,卷積核被分為W1=[W11T,W12T,…,W1kT]T , W2=[(W21T,W22T,…,W2kT]T。隨後,公式3可被重寫為:

當稀疏性限制只允許第i個神經元group有非零元素時,公式4可以被reduced,如圖1所示,並形式化為:

提出的稀疏度假設選取振幅最大的節點群,不計算所有節點的值就無法實現。在我們的方法中,唯一的非零組的選擇是由一個關於輸入訊號X的多層感知器(MLP)建模的。

常規的卷積操作需要為每個畫素共享核心。因此,選擇也應該通過spatial space來識別。我們受到Squeeze-and-Excitation[19,20]操作的啟發,提出在MLP前增pooling和boardcasting操作進行分組選擇。上述可被形式化為:

需要注意的是,對於影象恢復來說,大多數基於patch的演算法[1,20],池化操作應該針對特定的patch大小,而不是針對整個影象。

Comparison to thresholding and gating.與閾值和gating的比較。該方法將隱藏層表示中所有節點的非零實體數限制在1/k以下,與2.3節中討論的閾值和門控方法相比,該方法更接近Eq. 1中的稀疏性定義。

Comparison to node pruning. 與節點剪枝對比。節點剪枝通過對所有相關的可訓練引數進行歸零來減少啟用節點。無論輸入訊號如何變化,修剪後的節點都保持為零,這大大降低了表示的維數。在該方法中,稀疏性自適應地依賴於輸入。雖然輸入本身保持了表示的高維數,但作為窄模型,我們的方法節省了計算和記憶體開銷。

3.2 Relaxed soft sparsity鬆弛軟稀疏

與稀疏編碼中的L0範數相似,Eq. 6中的自適應稀疏群選擇是不可微的,並且無法與神經網路共同學習。雖然Gumbel技巧[21]被提議對條件概率分佈的argmax重新引數化,但它在我們的實驗設定中沒有取得令人信服的結果。

通過用softmax代替selection作為max的光滑逼近來鬆弛稀疏性約束。MLP不是預測k中的index,而是通過softmax函式σ(̇)寬泛地預測組β=β1, β2,…βk∈R0,1k的概率,

然後,將Eq. 4中的雙層結構更新為自適應加權組和為,

通過加權求和,Eq. 8不能直接簡化為Eq.5,因為組權值中沒有一個是正好為零的。幸運的是,給定softmax輸出的稀疏假設,∃i,s.t. βiβj→0,∀j≠i,並以分段線性啟用函式F, ReLU為例,證明隱藏神經元的加權和可以近似化為引數Wi的加權和,如圖2,並公式化為,

注意,W1和W2的兩個√β不需要相同才能得到近似值。我們的實驗表明,獨立地預測W1和W2的權重有利於提高準確性。

這樣,軟稀疏約束約束下的網路與硬約束約束下的網路具有同樣的效率。與對影象進行卷積運算相比,卷積核的插值所增加的唯一計算開銷可以忽略不計。

圖2:說明加權神經元在軟稀疏約束和減少對應的加權和引數。左:具有軟稀疏性約束的網路,對k組的神經元應用了權重βi。右:先將引數組加權求和到一個小切片中,然後將其應用於特徵的近似約簡。

Comparison to conditional convolution.與條件卷積比較。CondConv[22]在自適應加權卷積核和的運算上與我們的鬆弛軟稀疏方法相似。然而,CondConv使用的是sigmoid函式來規格化核的權重,而不是softmax函式。因此,在CondConv中沒有明確地使用稀疏性約束,我們的實驗表明,稀疏性對模型的精度非常重要。

3.3 Cardinality over sparsity groups稀疏群上的基數

用簡單的MLP建模群體之間的稀疏性是一個挑戰,特別是當每個群體的維度c增長時。此外,在預先定義的組內的結合通道限制了稀疏模式的多樣性。受ResNeXt[23]中群卷積的啟發,我們將每個稀疏群的c節點分割成d個基數群,每個有c/d節點的基數群獨立地沿k個稀疏群約束,如圖3所示。形式上,將權值的平均推廣到矩陣中,γ=γ1,γ2,…γd∈R0,1d,k,並且γi=σ(MLPiPoolX),然後加權平均卷積核變成,

其中Wi=[W1,i,W2,i,…,Wd,i]並且Wj,i是第j個基數群和第i個稀疏群。concat是沿著輸出通道的軸線進行連線操作。值得注意的是,按照基數分組,當d = c, k = 1且MLP啟用被s型函式代替時,Squeeze-and-Excitation[19]操作成為我們方法的一個特殊情況。

圖3:說明我們的方法。影象塊的特徵首先進行空間池化並送入MLP中,使用softmax作為啟用函式以預測稀疏性約束γ∈Rd,k。softmax函式沿k軸執行。卷積核W分為k個稀疏組和每組c個通道Wi。每組又進一步分為d個基陣列和c/d通道每組Wj,i。與基數無關的加權和如公式10所示。最後,聚合核心Wˆ與原始特徵卷積。

4 Experiments

4.1 Setting

Datasets and benchmarks. 我們使用多個數據集分別進行影象超解析度去噪和壓縮偽影去除。對於影象的超解析度,使用DIV2K對模型進行訓練,包含800高質量(2K解析度)影象的[24]資料集。DIV2K也有100張驗證影象,用於消融研究。用於基準評估的資料集包括Set5[25]、Set14[2]、BSD100[26]和Urban100[27],三個up-scaling factors:x2、x3和x4。對於影象去噪,訓練集由Berkeley Segmentation Dataset (BSD)組成。200張訓練分割的影象和200張測試分割的影象,如[28]。用於基準評估的資料集包括Set12、BSD64[26]、Urban100[27]和加性白高斯噪音(AWGN)達到15,25,50級。對於壓縮偽影去除,訓練集由[1]中的91張的訓練影象和200張[26]的訓練影象組成。用於基準評估的資料集包括LIVE1[29]和Classic5的JPEG壓縮質量為10,20,30和40。評價指標包括PSNR和SSIM[30]用於預測影象質量的亮度或灰度,只有DIV2K在RGB通道中評估。每畫素的FLOPs被用來衡量效率,因為執行時的複雜性是比例的輸入影象大小完全卷積模型。

Training setting。模型使用自然影象和退化的對應影象進行訓練。線上資料增強包括訓練過程中的隨機翻轉和旋轉。訓練是基於隨機取樣的影象補丁,每幅影象100次,並進行epoch。整個訓練epoch為30,模型優化與L1距離和Adam優化。初始學習率是0.001,在20和25個epoch乘以0.2。

4.2 Ablation study

我們通過消融研究來證明神經稀疏表示的意義。在DIV2K驗證集上,對PSNR下的影象超解析度進行了x2up-scaling實驗。我們以16個殘塊、32個神經元和4x width multiplier的WDSR[31]網路為基線,對於稀疏性組,預設設k = 4。

Sparsity constraints.稀疏性限制。稀疏性約束對於表示稀疏性至關重要。我們用Gumbel -softmax實現了硬稀疏約束來模擬硬最大的梯度,並將其與softmax函式實現的軟稀疏度進行了比較。在softmax的溫度也控制輸出分佈的銳度。當溫度很小時,softmax輸出更清晰,更接近hardmax。這樣梯度就會消失。當溫度較大時,softmax輸出更平滑,那麼它將與公式9中近似的稀疏性假設相矛盾。我們還將它們與一個類似的模型進行了比較,在CondConv[22]中使用s型函式作為MLP啟用,而不是稀疏約束。表1的結果表明,基於gumbel的硬稀疏性方法是不可行的,甚至比沒有稀疏性組的基線更差。為了達到更好的效果,需要對溫度進行適當的初始化,這與上述分析一致。Sigmoid的結果也比softmax差,因為Sigmoid不能保證稀疏性,這也與我們在前一節的比較一致。

Cardinality.基數。基數維數降低了稀疏群中通道之間的實際維數和依賴性,提高了卷積核上線性組合權值的多樣性。圖4中不同基數模型的結果表明,不斷增加基數有利於準確性。我們還將其與特殊情況下的Squeeze-and-Excitation模型(SE)進行了比較。我們的模型明顯優於SE模型。