ECCV2020超解析度方向論文整理筆記
ECCV2020超解析度篇
ECCV的全稱是European Conference on Computer Vision(歐洲計算機視覺國際會議) ,是計算機視覺三大頂級會議(另外兩個是ICCV]和CVPR)之一,兩年一次在歐洲召開。
ECCV2020超分方向有24篇,涉及影象超解析度的有8篇,本文只介紹其中的6篇,還有一篇是研究影象放大但也涉及影象超分方向(Invertible Image Rescaling),其超分上的結果提升特別大,因此一併介紹。
相關筆記:
文章目錄
1. Invertible Image Rescaling
Invertible Image Rescaling,paper,code
可逆影象縮放:以影象訊號為例,探討了影象的壓縮或縮放後的還原問題,完美恢復降取樣後的高清圖片。
問題描述:
高解析度數字影象通常會按比例縮小以適應各種顯示屏或者節省儲存成本和頻寬,同時採用後放大方法恢復原始的解析度或放大影象中的細節。但是,由於高頻資訊的丟失,典型的影象解析度縮小是一種非注入式對映,這導致逆放大過程的不適定問題。作者提出一種可逆的縮放網路(Invertible Rescaling Net, IRN),從新的角度(可逆雙射變換)建模降尺度和升尺度過程來大大緩解影象升尺度的不適定問題。
IRN是一種對損失資訊進行建模,實現訊號處理高保真還原方法。與影象超分不同,它研究的是影象放大的問題,在一開始,原始真實高清影象HR就是可獲得
根據Nyquist-Shannon取樣定理,在縮小HR影象的過程中丟失的資訊等於高頻內容。如圖,作者首先採用小波變換將HR分解為低頻分量和高頻分量,分別表示為 x L x_L xL 和 x H x_H xH。 x L x_L xL 對應低頻分量A, x H x_H xH 對應三個不同方向的高頻分量H(水平)、V(垂直)、D(對角)。這裡的低頻分量與雙線性插值降取樣得到的低解析度結果是一樣的,而高頻分量則是在降取樣過程中被丟失的資訊。
正向縮減過程中,HR被分解為 x L x_L xL 和 x H x_H xH,通過可逆網路可生成可逆函式 f θ ( ⋅ ) f_{\theta}(·) fθ(⋅) 。 f θ ( ⋅ ) f_{\theta}(·) fθ(⋅) 可用視覺上還不錯的LR影象 y y y 和與樣本無關的潛在變數 z z z 表示。
逆放大過程中,通過逆函式 f θ − 1 ( ⋅ ) f_{\theta}^{-1}(·) fθ−1(⋅) 將 y y y 與 z z z 的隨機組合轉化為HR影象。
網路架構:
所提的IRN的總體架構由堆疊的縮減模組組成,每個模組都包含一個Haar變換模組和幾個可逆神經網路模組(InvBlocks),每個縮減模組將空間解析度降低2倍。
Haar Transformation:即小波變換,輸入Size=(H, W, C),輸出Size=(H/2, W/2, 4C),輸入HR的低頻資訊和高頻資訊被有效地分離並且將被饋送到隨後的InvBlock中。
InvBlock:以Haar變換後的特徵圖為輸入,使用InvBlocks的堆疊進一步抽象LR和潛在表示。採用 Density estimation using Real NVP 中的通用耦合層,如圖:
圖源自 Density estimation using Real NVP
HR Reconstruction:模型可以通過最終學習到LR影象 y y y 和與樣本無關的分佈 z z z,對分佈 z z z 隨機抽取,就可以重建HR影象,構成一個HR → \rightarrow → ( y , z y, z y,z) → \rightarrow → HR的可逆縮放網路。這一可逆過程如圖所示:
圖源自 Density estimation using Real NVP
損失函式:採用HR重建損失,LR指導損失和分佈匹配損失的加權和。
HR重建損失:衡量原始HR和重建HR的差異
LR指導損失:衡量原始LR和生成的LR影象 y y y 的差異
分佈匹配損失:衡量原始HR的分佈和重建HR分佈的差異
結果對比:
提升非常高!視覺化效果也很贊,很好地恢復了較細地紋理結構(高頻細節):
IRN+:在IRN基礎上加入感知損失
2. CDC: Component Divide-and-Conquer
Component Divide-and-Conquer for Real-World Image Super-Resolution,paper,code
元件分而治之:構建三個分別與平面,邊緣和角相關聯的元件注意力塊實現真實世界的影象超解析度。
問題描述:
1.傳統的超分方法LR影象是通過簡單的下采樣方法(如雙三次)獲得,這種退化通常會偏離真實的退化,模型在實際情況中泛化能力不強。
2.逐畫素損失(如MSE)導致模型過擬合或趨向於易於重建的區域。
直觀地,SR的目標隨具有不同低階影象元素的LR區域而變化,例如,平坦區域的平滑度保持不變,邊緣銳化,紋理的細節增強。考慮到平坦區域和邊緣是影象中最常見的,按均質畫素損失學習的模型傾向於處理平坦區域和邊緣,但通常無法推斷出複雜紋理的真實細節。
作者通過分析EDSR中L1損失的三個分量(平面、邊緣和對角)比例,並評估它們對SR重建的影響。觀察到這三個分量具有不同的重建難度:平滑區域和邊緣的損失較小,而拐角點的損失很大。角具有至關重要的方向提示,這些方向提示可以控制邊緣或紋理的形狀或外觀,可能有利於影象重建。因此,探索這三個分量以促進SR模型訓練不受各種退化過程的限制。
受到三個分量對重建影響的啟發,作者建立了一個大型的、多樣的真實世界SR基準資料集DRealSR,並提出了一個元件分而治之模型(CDC)以應對現實中的SR挑戰。
具體來說,作者首先基於堆疊的沙漏網路開發一個名為HGSR(Hourglass Super network)的基本模型。 HGSR通過在所有尺度上重複進行自下而上和自上而下的推理來學習多尺度特徵。通過HGSR,CDC(Component Divide-and-Conquer)可以構建三個分別與平面,邊緣和角相關聯的元件注意力塊(Component-Attentive Block,CAB)。每個CAB都致力於通過中間監督(Intermediate Supervision, IS)策略來學習三個低階元件之一。 CDC僅在訓練階段從HR影象中提取平坦區域,邊緣和角,然後將它們分別合併到帶有CAB的三個不同分支中。這三個CAB形成了一個漸進的正規化,並進行彙總以生成最終的SR重建。考慮到不同的影象區域在各個方向上傳遞的梯度不同,提出了一種梯度加權(Gradient-Weighted, GW)損失函式用於SR重建。一個區域越複雜,對其損失函式的影響就越大。GW損失,就像用於訓練目標檢測器的Focal Loss一樣,根據不同的影象重建難度來適應模型訓練。
HG模組如Fig.3(a)
Fig.3(b) 為HGSR模組
Fig.3(c)為CDC模組
RB:Residual Block
RB:Residual Inception Block
HG模組可以捕獲每個尺度的資訊,具有出色的關鍵點檢測效能。它的沙漏模組可以看作是具有跳過連線的編碼器/解碼器,以保留每種解析度的空間資訊,並將它們組合在一起以預測畫素的輸出。HG模組首先通過卷積層,然後通過最大池化層。在自上而下推理期間,將不斷重複此過程直到最低解析度。然後自下而上通過最近鄰插值進行不斷的上取樣,並通過跳過連線跨尺度組合特徵,直到恢復原始解析度為止。
HG將中間預測遞迴加入下一個HG模組,而HGSR和CDC使用中間監督(Intermediate Supervision, IS)策略進行模型學習,避免了遞迴操作,從而避免遞迴操作在骨幹特徵學習中引起的較大幹擾。HGSR損失函式為 L i s \mathcal{L}_{is} Lis 和 L 1 \mathcal{L}_1 L1。
CDC結構:
網路的總損失為:
L
=
1
N
∑
i
=
1
N
[
L
r
e
c
(
x
^
i
,
x
i
)
+
∑
e
=
1
3
L
i
s
(
x
~
i
e
,
x
i
)
]
\mathcal{L} = \frac{1}{N} \sum_{i=1}^{N}[\mathcal{L}_{rec}(\hat{x}_i, x_i) + \sum_{e=1}^{3}\mathcal{L}_{is}(\tilde{x}_i^e, x_i)]
L=N1i=1∑N[Lrec(x^i,xi)+e=1∑3Lis(x~ie,xi)]
L r e c \mathcal{L}_{rec} Lrec 表示重建損失
e e e 表示CAB塊的索引
x ~ i e \tilde{x}_i^e x~ie 表示中間SR預測結果(以下用 x ~ e \tilde{x}_e x~e 表示)
CDC模型以HGSR為骨架。CDC關注於平面、邊緣和角三個影象分量,而不是邊緣或/和複雜紋理,這些分量使用哈斯(Harris)角點檢測演算法分別提取出來,並分別在CAB塊中進行隱式混合,通過最小化GW損失生成自然SR結果。儘管三個成分的指導來自HR影象,但CDC會在測試階段推斷出成分概率圖,而無需進行任何檢測。
CDC有三個CAB組成。每個CAB由兩個pixel-shuffle層組成,一個用於生成粗略的SR結果,另一個用於生成表示分量概率圖的Mask。然後對粗略的SR結果與其他的CAB輸出進行加權,得到最終的SR重建結果。在訓練階段,CDC利用HR影象作為中間監督,以通過HR元件Mask的指導來生成IS損失。因此,CAB的中間損失定義為:
L
i
s
=
l
(
M
e
∗
x
,
M
e
∗
x
~
e
)
\mathcal{L}_{is} = l(M_e * x, M_e * \tilde{x}_e)
Lis=l(Me∗x,Me∗x~e)
M e M_e Me 表示從HR影象提取的元件指導Mask
l ( ⋅ ) l(·) l(⋅) 可以是任何損失函式,本文采用L1損失函式
梯度加權損失:平面、邊緣和角的檢測方案根據影象的重要性提供一個合理的影象解耦,因此可以用於確定容易和困難的區域並獲得最終的SR預測
x
^
\hat{x}
x^ 作為三個CAB塊輸出的總和:
x
^
=
∑
e
A
e
∗
x
~
e
\hat{x} = \sum_e A_e * \tilde{x}_e
x^=∑eAe∗x~e ,這裡
A
e
A_e
Ae 表示注意力元件的Mask。作者提出一種梯度加權損失,以動態的調整其作用,從而最小化重建損失。按照這種原理,平坦邊緣區域和單邊緣區域自然被歸類為簡單區域。由於角具有影象中的細部細節,因此被歸類為困難區域。考慮到不同區域的一階梯度的多樣性,新的SR重建損失函式GW損失定義為:
L
g
w
=
l
(
D
g
w
∗
x
,
D
g
w
∗
x
^
)
\mathcal{L}_{gw} = l(D_{gw}*x, D_{gw} * \hat{x})
Lgw=l(Dgw∗x,Dgw∗x^)
D g w = ( 1 + α D x ) ( 1 + α D y ) D_{gw} = (1+\alpha D_x)(1+\alpha D_y) Dgw=(1+αDx)(1+αDy)
D x = ∣ G x s r − G x h r ∣ D_x = |G_x^{sr} - G_x^{hr}| Dx=∣Gxsr−Gxhr∣,SR和HR在水平方向上的梯度差異圖
D y = ∣ G y s r − G y h r ∣ D_y = |G_y^{sr} - G_y^{hr}| Dy=∣Gysr−Gyhr∣,SR和HR在垂直方向上的梯度差異圖
α = 0 \alpha = 0 α=0 ,GW損失變為原始損失 l ( x , x ^ ) l(x, \hat{x}) l(x,x^);本文設定 α = 4 \alpha=4 α=4 ,此時的GW損失作為 L r e c \mathcal{L}_{rec} Lrec。
結果對比:
3. SRFlow
SRFlow: Learning the Super-Resolution Space with Normalizing Flow,paper,code
SRFlow:通過歸一化流學習超解析度空間。給定輸入的低解析度影象,作者將超解析度公式化為學習高解析度影象上的條件概率分佈的問題,使用單項損失(即負對數可能性)以有原則的方式訓練模型。
問題描述:
給定一個LR影象,傳統方法只能預測單個SR輸出,而SRFlow方法可以從學習到的分佈中取樣多個不同的SR影象。
與學習資料分佈的方法GAN不同,GAN需要仔細調參實現多種損失,而SRFlow使用單一損失的穩定訓練:negative log-likelihood,克服了GAN模型崩潰的問題;SRFlow採用完全可逆的編碼器,能夠將任何輸入的HR影象對映到潛在的流空間並確保精確的重建。
目前多數方法:設給定低解析度影象LR為x ,對應的高解析度影象HR為y,學習確定的對映:x → \rightarrow → y
SRFlow:捕獲與 x 對應的 y 的所有條件分佈: p y ∣ x ( y ∣ x , θ ) p_{y|x}(y|x, \theta) py∣x(y∣x,θ) ,網路的目的就是訓練分佈的引數 θ \theta θ 。
歸一化流的核心思想就是使用可逆神經網路 f θ f_{\theta} fθ 引數化分佈 p y ∣ x p_{y|x} py∣x, f θ f_{\theta} fθ 將HR-LR影象對對映到一個潛變數 z = f θ ( y ; x ) z = f_{\theta}(y;x) z=fθ(y;x) ,並且此過程可逆,即存在 y = f θ − 1 ( y ; x ) y = f_{\theta}^{-1}(y;x) y=fθ−1(y;x)
,也即HR影象 y 總是可以根據潛在編碼 z 準確的重構。假設潛在空間 z 中的簡單分佈
p
z
(
z
)
p_z(z)
pz(z) ,條件分佈
p
y
∣
x
(
y
∣
x
,
θ
)
p_{y|x}(y|x, \theta)
py∣x(y∣x,θ) 由樣本
z
∽
p
z
z \backsim p_z
z∽pz 的對映
y
=
f
θ
−
1
(
y
;
x
)
y = f_{\theta}^{-1}(y;x)
y=fθ−1(y;x) 隱式定義。歸一化流的關鍵就是概率密度
p
y
∣
x
p_{y|x}
py∣x 可以明確地計算為:
p
y
∣
x
(
y
∣
x
,
θ
)
=
p
z
(
f
θ
(
y
;
x
)
)
∣
d
e
t
∂
f
θ
∂
y
(
y
;
x
)
∣
p_{y|x}(y|x, \theta) = p_z(f_{\theta}(y;x)) | det \frac{\partial f_{\theta}}{\partial y}(y;x) \mid
py∣x(y∣x,θ)=pz(fθ(y;x))∣det∂y∂fθ(y;x)∣
上式允許我們通過最小化訓練樣本對 (x, y) 的負對數似然(the negative log-likelihood, NLL)損失來訓練網路:
L
(
θ
;
x
,
y
)
=
−
log
p
y
∣
x
(
y
∣
x
,
θ
)
=
−
log
p
z
(
f
θ
(
y
;
x
)
)
−
log
∣
d
e
t
∂
f
θ
∂
y
(
y
;
x
)
∣
\mathcal{L}(\theta ;x,y) = -\log {p_{y|x}(y|x, \theta)} =-\log {p_z(f_{\theta}(y;x))} -\log |{det \frac{\partial f_{\theta}}{\partial y}(y;x)|}
L(θ;x,y)=−logpy∣x(y∣x,θ)=−logpz(fθ(y;x))−log∣det∂y∂fθ(y;x)∣
將神經網路
f
θ
f_{\theta}
fθ 分解為 N 個可逆層的序列
h
n
+
1
=
f
θ
n
(
h
n
;
g
θ
(
x
)
)
h^{n+1}=f_{\theta}^n(h^n;g_{\theta}(x))
hn+1=fθn(hn;gθ(x)) (
h
0
=
y
,
h
N
=
z
h^0 = y, h^N=z
h0=y,hN=z),上式又可以寫成:
L
(
θ
;
x
,
y
)
=
−
log
p
z
(
z
)
−
∑
n
=
0
N
−
1
log
∣
d
e
t
∂
f
θ
n
∂
h
n
(
h
n
;
g
θ
(
x
)
)
∣
\mathcal{L}(\theta ;x,y) = -\log {p_z(z)} -\sum_{n=0}^{N-1} \log{|{det \frac{\partial f_{\theta}^n}{\partial h^n}(h^n;g_{\theta}(x))|}}
L(θ;x,y)=−logpz(z)−n=0∑N−1log∣det∂hn∂fθn(hn;gθ(x))∣
因此,只需要為每個單獨的流層(flow-layer)
f
θ
n
f_{\theta}^n
fθn 計算雅各布(Jacobian)對數行列式。
網路的整體架構:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-hDsr7eNy-1603156767800)(ECCV2020超解析度篇.assets/SRFlow.png)]
整個SRFlow網路由可逆流網路 f θ f_{\theta} fθ 和 LR編碼器 g θ g_{\theta} gθ 組成。流網路 f θ f_{\theta} fθ 具有L層,每層的解析度為 H 2 l × W 2 l \frac{H}{2^l} \times \frac{W}{2^l} 2lH×2lW, l l l 為當前層的索引值,每層又包含 K 個Flow-step。
Flow-step:每個Flow-step由4個不同的層組成,如圖2藍色塊所示。
Low Resolution Encoder g θ g_{\theta} gθ :採用n個殘差密集塊(RRDB)的堆疊,其實就是經典SISR網路的特徵提取部分,最終的輸出為 g θ g_{\theta} gθ 。
結果對比:
4. Holistic Attention Network
Single Image Super-Resolution via a Holistic Attention Network,paper
本文是對注意力機制的改進,由於通道注意力對於保留每一層中的豐富的特徵資訊有效,而把每個卷積層視為一個單獨的過程,忽視了不同層之間的相關性。因此,作者提出全注意力網路HAN(holistic attention network),由層注意力塊LAM(layer attention module)和通道空間注意力塊CSAM(channel-spatial attention module)組成,對層、通道和位置的整體相互依賴關係進行建模。LAM通過考慮層之間的相關性來自適應地強調分層特徵。CSAM學習每個通道所有位置的置信度,以有選擇地捕獲更多資訊性特徵。
HAN網路整體架構如下:
HAN的架構還是很簡單的,整個框架基於RCAN,與其不同的是:HAN將每個RG的輸出Concat連線起來,然後通過一個LAM,對層進行加權,即LAM能夠增強高貢獻特徵層並抑制冗餘特徵層;特徵提取部分最後的輸出接一個CSAM,自適應獲取通道內和通道間更重要的資訊。
LAM結構如下:
將N個RG輸出Concat連線起來,Size為NxWxHxC,然後reshape成NxHWC的二維矩陣,並使用矩陣相乘和相應的矩陣轉置來計算不同層之間的相關係數 w i , j w_{i,j} wi,j,也就是對RG中的特徵組進行加權,新生成的加權特徵組 F L j = α ∑ i = 1 N w i , j F G i + F G j F_{L_j} = \alpha \sum_{i=1}^N w_{i,j}FG_i + FG_j FLj=α∑i=1Nwi,jFGi+FGj , i , j i,j i,j 分別為第 i i i 和第 j j j 個特徵組, α \alpha α 為可學習引數,初始為0。可以看到,新生成的第 j j j 個特徵組與其他的特徵組相關。
CSAM結構如下:
現有的空間注意機制主要集中於特徵的尺度維度,很少吸收通道維度資訊。作者提出的CSAM機制包含來自特徵圖所有維度的響應,為了精度和速度的權衡,作者把它用於最後一個特徵組的末尾。較新穎的是,作者在CSAM中使用3維卷積,以通過捕獲聯合通道和空間特徵生成注意力特徵圖。
結果對比:
HAN+:使用自整合
5. LatticeNet:
LatticeNet: Towards Lightweight Image Super-resolution with Lattice Block,paper
輕量級晶格網路。
網路整體架構:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-uOedEAxn-1603156767802)(ECCV2020超解析度篇.assets/LatticeNet.png)]
網路包含四個部分:
淺層特徵提取:兩層3x3卷積級聯
多個級聯的晶格塊(Lattice Block, LB)
反向融合模組(Backward Fusion Module, BFM):
上取樣模組
Lattice Block(LB):
晶格濾波器的結構是FFT實時抽取蝶形運算的一種變體,它將輸入訊號分解為多階表示形式。Fig2.(a)為標準的2通道濾波器組標準晶格結構基本單元,它是一種蝶形結構。Fig2.(b)為本文的晶格塊結構,包含兩個蝶形結構,每個蝶形結構具有一個RB(Residual Block),給定一個輸入特徵圖 X \mathcal{X} X ,在1x1卷積之前的輸出 Y \mathcal{Y} Y 為:
特別的是,根據組合係數 A i , B i A_i, B_i Ai,Bi 的不同,LB具有多種不同的組合模式。舉個例子:
Fig3.(a): A i − 1 = B i − 1 = A i = B i = 1 A_{i-1} = B_{i-1} = A_i = B_i=1 Ai−1=Bi−1=Ai=Bi=1
Fig3.(b): A i − 1 ≠ B i − 1 , A i = B i = 1 A_{i-1} \neq B_{i-1}, A_i = B_i=1 Ai−1=Bi−1,Ai=Bi=1
Fig3.©: A i − 1 = B i − 1 , A i ≠ B i = 1 A_{i-1} = B_{i-1}, A_i \neq B_i=1 Ai−1=Bi−1,Ai=Bi=1
Fig3.(d): A i − 1 ≠ B i − 1 , A i ≠ B i = 1 A_{i-1} \neq B_{i-1}, A_i \neq B_i=1 Ai−1=Bi−1,Ai=Bi=1
Combination coefficient learning:組合係數向量 A i , B i A_i, B_i Ai,Bi 實際上在LB中扮演連線權重的角色,作者通過注意力機制來計算組合係數,方法採用整合平均池化和標準差池化,如下圖所示:
Backward fusion module(BFM)
層次資訊對SR非常重要,因此作者將每個LB的輸出融合入BFM,採用反向順次級聯策略對不同的感受野特徵進行融合。核心操作是1x1卷積和Relu啟用,對每個LB輸出對其從後往前進行融合。
結果對比:
測試所提LB的有效性:
在SRResNet和RCAN中,作者使用一個LB替換4個連續的RB塊
可見,引數量減少一半的情況下,就獲得與原方案可比的效能。
測試BFM的有效性:
2nd中1x1卷積表示採用RDN中使用1x1卷積直接融合所有的LBs。可以看出,同時使用LB和BFM效能最高。
在四個測試集上的結果:
6. VarSR
VarSR: Variational Super-Resolution Network for Very Low Resolution Images,paper
極低解析度(如8x8)的變分超分網路:從學習到的LR和SR影象的潛在共同分佈中抽取樣本,以生成多種SR影象作為多對一關係。
超解析度是一個不適定問題,即一個LR影象有多個HR影象與之對應,或者說多個HR影象可以共享一個低解析度LR影象。目前的超分方法大多基於確定的超分模型,即一個LR影象對應一個HR影象,因為它們是基於LR和與其對應的嚴格的配對HR影象的點對點誤差最小化進行優化。如下圖(a)
作者的VarSR方法LR與HR是一對多的關係,通過對共享分佈中的多個潛在變數進行取樣來匹配低/高解析度的潛在分佈,以產生多種超分輸出。如下圖(b)
LS表示匹配的潛在空間
作者為LR和HR影象引入兩個潛在變數,並以此作為網路訓練的輸入。訓練時跟以前經典的SR方法一樣,網路最後可以生成多個看上去效果還不錯的SR影象。這可以解決確定性SR模型的單一結果不佳,而VarNet可以生成多個接近HR的輸出,因此經過多次搜尋可以構成足夠大小的候選清單,即它是以產生多個輸出而減少犯錯誤的機會。
在訓練階段使用LR和HR作為輸入,以生成LR和HR的潛在分佈,然後從潛在分佈 z z z 中隨機抽取,與LR結合生成SR。
在推理階段,從潛在分佈 z z z 中取樣,結合LR,生成多個SR。
VarNet取樣U-Net和SRGAN架構,見補充材料部分,但我目前並沒有找到補充材料的資源。
7. Learning with Privileged Information
Learning with Privileged Information for Efficient Image Super-Resolution,paper,code
廣義知識蒸餾特權資訊學習:提出教師學生模型,大幅提高FSRCNN的效能。教師中的編碼器模仿損失學習退化過程,即對HR影象進行二次取樣;學生(和FSRCNN相同的框架)和教師中的解碼器,嘗試重建HR影象。
問題描述:
金典的SISR網路計算成本高、記憶體消耗大,很難部署於本地裝置上,如電視或電話的單個晶片上。而使用遞迴又很難達到PSNR和速度/記憶體的折衷,基於模型剪枝和引數量化的網路壓縮方法又存在剪枝在本地時速度不高和量化不適於高精度網路的問題。知識蒸餾是網路壓縮的另一種方式,其中大型網路(即教師網路)將輸出分佈的softed vision(即logit)或中間特徵表示傳遞給小型網路(即學生網路),它已經顯示出特別是在影象分類任務中的有效性。廣義蒸餾更進一步,允許教師在訓練時使用額外的(特權)資訊,並利用補充知識來協助學生網路的訓練過程。
網路結構:
T表示教師網路,S表示學生網路
左圖為基於教師/學生的傳統的知識蒸餾網路,右圖為所提網路。可以看出,所提網路的明顯的區別在於用真實GT影象作為特權資訊訓練教師網路,以往的SISR方法只是將GT與整個網路輸出的SR結果求損失,以懲罰錯誤重構,這裡卻利用GT作為LR影象的補充資訊(如高頻分量)。右圖中的教師網路是編碼/解碼的結構,學生網路採用FSRCNN架構。
T與S的具體細節如圖:
教師網路:採用真實HR作為輸入(
Y
Y
Y),編碼器Encoder提取緊湊的特徵表示(
X
^
T
\hat{X}^{\mathcal{T}}
X^T),即將高維
Y
Y
Y 轉化為低維表示
X
^
T
\hat{X}^{\mathcal{T}}
X^T ,這種高維到低維的對映可以避免當輸入為真實HR時,教師網路只能學習複製輸入以重建HR;然後,解碼器重建HR輸出(
Y
^
T
\hat{Y}^{\mathcal{T}}
Y^T)。訓練採用模仿損失
L
i
m
T
L_{im}^{\mathcal{T}}
LimT 和重建損失
L
r
e
c
o
n
T
L_{recon}^{\mathcal{T}}
LreconT ,如上圖右上部分。總損失為:
L
t
o
t
a
l
T
=
L
r
e
c
o
n
T
+
λ
T
L
i
m
T
L_{total}^{\mathcal{T}} = L_{recon}^{\mathcal{T}} + \lambda^{\mathcal{T}}L_{im}^{\mathcal{T}}
LtotalT=LreconT+λTLimT
學生網路:使用教師網路中的解碼器權重初始化學生網路,從LR輸入(
X
X
X)中恢復HR輸出(
Y
^
S
\hat{Y}^{\mathcal{S}}
Y^S)。訓練採用蒸餾損失
L
d
i
s
t
i
l
S
L_{distil}^{\mathcal{S}}
LdistilS 和重建損失
L
r
e
c
o
n
S
L_{recon}^{\mathcal{S}}
LreconS ,如上圖右下部分。總損失為:
L
t
o
t
a
l
S
=
L
r
e
c
o
n
S
+
λ
S
L
d
i
s
t
i
l
l
S
L_{total}^{\mathcal{S}} = L_{recon}^{\mathcal{S}} + \lambda^{\mathcal{S}}L_{distill}^{\mathcal{S}}
LtotalS=LreconS+λSLdistillS
估計器模組:獲取學生網路的中間特徵圖,並分別輸出位置圖和比例圖,即µ和b。
特別地:學生網路和解碼器共享相同的網路體系結構。
結果對比:
引數對比:
在Set5資料集上,PSNR取平均值,scale=2
8. Stochastic Frequency Masking
Stochastic Frequency Masking to Improve Super-Resolution and Denoising Networks,paper,code
隨機頻率掩模改善超解析度和降噪網路。
摘要:超解析度和去噪是不適的,但仍是基本的影象恢復任務。在盲環境下,降級核心或噪聲級別未知,這使得恢復甚至更具挑戰性,尤其是對於基於學習的方法而言,因為它們傾向於過度適應訓練期間出現的退化。我們在頻域中對超解析度下的退化核心過度擬合進行了分析,並介紹了一種擴充套件到超解析度和降噪的條件學習觀點。在我們的公式的基礎上,我們提出了用於訓練的影象的隨機頻率掩模,以使網路規則化並解決過度擬合的問題。我們的技術改進了具有不同合成核心,真實超解析度,盲高斯去噪和實像去噪的盲超解析度的最新技術。
9. Journey Towards Tiny Perceptual Super-Resolution
Journey Towards Tiny Perceptual Super-Resolution,paepr
微小感知超解析度。
摘要:單影象感知超解析度(SR)的最新工作已證明通過深度卷積網路生成逼真的紋理具有空前的效能。但是,這些卷積模型過大且昂貴,阻礙了它們在終端裝置上的有效部署。在這項工作中,我們提出了一種神經體系結構搜尋(NAS)方法,該方法將NAS和生成對抗網路(GAN)與感知性SR的最新進展整合在一起,並提高了小型感知性SR模型的效率,以促進裝置執行。具體來說,我們依次搜尋生成器和鑑別器的體系結構,重點介紹了搜尋SR優化鑑別器並將其與文獻中現有鑑別器體系結構進行比較的獨特挑戰和關鍵觀察。我們的微型感知SR(TPSR)模型在全參考感知度量(LPIPS)和失真度量(PSNR)上均優於SRGAN和EnhanceNet,同時分別提高了26.4倍的記憶體效率和33.6倍的計算效率。
個人總結
通過上面的論文梳理,可以ECCV2020上有幾大值得關注的地方:1)關注於影象的分佈,2)將HR也作為輸入 ,3)損失函式非單一的HR與SR的差異,而是多種損失的加權。
第一篇論文IRN借鑑 Density estimation using Real NVP 中可逆神經網路INN的思想,創新地將HR經小波變換分解為低頻分量和高頻分量作為網路的輸入,網路生成潛在分佈和多個LR影象,然後以此再逆變換重建HR影象。效能提高極大!
第二篇論文采用分而治之的思想,即將影象的平面、邊緣和角進行不同的注意力機制,使網路更關注於學習高頻細節特徵。
以上兩篇都是把網路學習的重點放在了高頻部分。
第三篇論文直接學習HR影象的條件分佈,並直接以分佈差異作為損失函式,獲得性能的提升。
第四篇是對RCAN網路的改進,RCAN的深度特徵提取部分的輸出是直接輸入到重建模組的,作者提出關注於層的和關於通道空間的注意力機制以更好的融合和捕獲前面網路的輸出特徵。
第五篇晶格網路的超分論文,我覺得作者提出的反向級聯融合模組是一個亮點,打破了之前方法對特徵提取模組輸出特徵的順序融合或者最後一個模組的輸出送入直接重建部分的方式,作者也通過消融實驗證明了這種融合方式的有效性。
第六篇是針對極低解析度(如8x8)的超分,極低解析度包含HR高頻資訊極少,因此作者用HR與LR同時作為網路的輸入,學習其潛在分佈,生成多個SR,然後通過搜尋的方式得到最終的結果。
第七篇是教師/學生網路應用於超分的例項,特別地,作者以HR作為教師網路的輸入,並用其輸出初始化學生網路,即通過教師網路補足了LR影象中缺失的高頻資訊。
後面的兩篇與本人目前的方向相關性不大,鑑於時間關係,這裡並未介紹。
三篇論文直接學習HR影象的條件分佈,並直接以分佈差異作為損失函式,獲得性能的提升。
第四篇是對RCAN網路的改進,RCAN的深度特徵提取部分的輸出是直接輸入到重建模組的,作為提出關注於層的和關於通道空間的注意力機制以更好的融合和捕獲前面網路的輸出特徵。
第五篇晶格網路的超分論文,我覺得作者提出的反向級聯融合模組是一個亮點,打破了之前方法對特徵提取模組輸出特徵的順序融合或者最後一個模組的輸出送入直接重建部分的方式,作者也通過消融實驗證明了這種融合方式的有效性。
第六篇是針對極低解析度(如8x8)的超分,極低解析度包含HR高頻資訊極少,因此作者用HR與LR同時作為網路的輸入,學習其潛在分佈,生成多個SR,然後通過搜尋的方式得到最終的結果。
第七篇是教師/學生網路應用於超分的例項,特別地,作者以HR作為教師網路的輸入,並用其輸出初始化學生網路,即通過教師網路補足了LR影象中缺失的高頻資訊。
後面的兩篇與本人目前的方向相關性不大,鑑於時間關係,這裡並未介紹。