視訊超分:FSTRN(Fast Spatio-Temporal Residual Network for Video Super-Resolution)
論文:視訊超分的快速時空殘差網路
文章檢索出處: 2019 CVPR
讀後感:模型單看架構圖就能瞭解七八,語言不夠精簡。唯一亮點為模型可行性分析部分,但是稍顯難懂晦澀。
摘要和簡介
為了同時利用視訊的空間和時間資訊,三維(3D)卷積是一種很好的方法。但是,直接使用3D卷積會導致計算複雜度過高,限制了模型的深度,從而影響效能。本文提出了一種新的快速時空殘差網路(FSTRN),實現了SOTR的效果。具體地說:
- 提出了一種快速時空殘差塊(FRB),它將每個三維濾波器劃分為兩個三維濾波器的乘積,可以大大降低計算負荷,同時通過更深的網路結構來提高效能。
- 設計了一種直接連線低分和高分空間的跨空間殘差學習方法(CRL),可以大大減輕特徵融合和縮放部分的計算負擔
快速時空殘差網路
網路架構 (描述較細,可選看非流程圖部分)
FSTRN 主要由四個部分構成:LR淺特徵提取網(LFENet)、快速時空殘差塊(FRBs)、LR特徵融合和上取樣SR網(LSRNet)、LR空間殘差學習(LRL)和跨空間殘差學習(CRL)組成的全域性殘差學習(GRL)。
LFENet使用C3D層從LR視訊中提取特徵:其中,
F
0
L
F_0^L
F0L是提取的特徵圖的輸出,
H
L
F
E
(
⋅
)
H_{LFE}(·)
HLFE(⋅)代表C3D操作。
F
0
L
F_0^L
F0L隨後用於LR空間的全域性殘差學習,並作為FRBs的輸入進行進一步的特徵提取。
FRBs用於提取LFENet輸出上的時空特徵。假設使用d個FRB,第一個FRB處理LFENet的輸出,隨後的FRB對前一個FRB輸出進一步提取特徵,那麼第可以表示為:
其中 H F R B , d H_{FRB,d} HFRB,d表示第d個FRB。除了FRBs之外,我們還進行了LR空間殘差學習(LRL),以進一步提高LR空間中的特徵學習。
其中 F L R L L F_{LRL}^L FLRLL利用複合函式 H L R L H_{LRL} HLRL實現LRL的輸出特徵對映。在有效提取LRL特徵後,我們使用一個C3D進行特徵融合,然後使用一個反捲積進行上取樣,再使用一個C3D進行LSRNet中特徵通道的調優。輸出 F S R L F^L_{SR} FSRL,表示為:
其中,HLSR(·)表示LSRNet操作。最終,網路輸出由LSRNet的 F S R L F^L_{SR}
H F S T R N H_{FSTRN} HFSTRN為所提的FSTRN方法函式,整體流圖如下。
快速時空殘差塊
從2D卷積到3D卷積需要更多的引數,就伴隨著更多的計算。為了解決這個問題,我們把C3D分解為兩個時空C3Ds — 從
k
k
k x
k
k
k x
k
k
k到1 x
k
k
k x
k
k
k加
k
k
k x 1 x 1。此外,我們還將啟用函式從ReLU改為PReLU,負部分的斜率是從資料中得知的,而不是預定義的。故FRB可以表示為:
其中,
σ
\sigma
σ為PReLU啟用函式。
W
d
,
s
W_{d,s}
Wd,s,
W
d
,
t
W_{d,t}
Wd,t分別對應FRB中空間卷積和時間卷積的權值,沒有顯示偏差項。因此,我們建立一個更大的基於C3D的模型,使得在有限的計算資源下,更好進行視訊超分。
全域性殘差學習
對於SR任務,輸入和輸出是高度相關的,所以輸入和輸出之間的殘差連線被廣泛使用。然而,之前的工作要麼是在放大的輸入上執行殘差學習,要麼是直接在輸入-輸出空間上執行殘差連線,再特徵融合和上取樣,這都會給這些層帶來很大的壓力。針對這些問題,我們提出了LR空間和HR空間上的全域性殘差學習(GRL),它主要包括LR空間殘差學習(LRL)和跨空間殘差學習(CRL)兩部分。
在FRBs中引入LR空間殘差學習(LRL)。我們為它使用一個跟隨引數矯正線性單元(PReLU)的殘差連線。考慮到輸入幀之間的高度相似性,我們還引入了dropout層來增強網路的泛化能力。因此LRL的輸出
F
L
R
L
L
F_{LRL}^L
FLRLL為:
其中
σ
L
\sigma_L
σL為PReLU與dropout的組合函式。
跨空間殘差學習(CRL)使用一個簡單的SR對映將LR視訊直接對映到HR空間,然後新增到LSRNet結果中,形成HR空間的全域性殘差學習。具體來說,CRL在輸出中引入了一個內插的LR,這可以極大地減輕LSRNet的負擔,幫助改進SR的結果。LR到HR空間的對映可以表示為:
其中
F
S
R
H
F_{SR}^H
FSRH是HR空間上的超分輸入對映。
H
C
R
L
H_{CRL}
HCRL表示對映函式。對映函式的選擇儘可能簡單,以避免引入太多的額外計算成本,包括雙線性、最近、雙三次、面積和基於反褶積的插值。
理論分析
對FSTRN的泛化能力和可行性進行了分析,此處不過多論述,若有需求請參考原文。
實驗
實施細節
使用25 YUV當做資料集,並對視訊序列資料進行了資料增強。在裁剪過程中,我們取大空間尺寸為144×144,時間step為5,空間和時間步長(strides)分別設定為32和10。此外,我們考慮了訓練卷的翻轉和調換版本。特別地,我們將原始影象旋轉90°並水平和垂直翻轉。這樣,我們可以從原始的視訊資料生成到13020個。在此之後,訓練和測試的LR輸入生成過程被分為兩個階段:用一個標準偏差為2的高斯濾波器平滑每個原始幀,並使用雙三次方法對前一幀進行向下取樣。另外,為了在測試階段保持輸出幀數與原始視訊相等,對測試視訊頭部和尾部進行幀填充。經驗設定FRBs的數量和學習率分別為5和0.3。使用Adam優化器來最小化標準反向傳播的損失函式。我們從1e - 4的步長開始,當訓練損失停止下降時,我們把它減少了10倍。批處理大小是根據GPU記憶體大小設定的。使用Charbonnier損失函式,ε = 1e − 3。
對比實驗
FRB和C3D塊引數量和複雜度比較:
消融實驗
量化評估
與SOTR模型的對比:
僅供學習使用,請勿轉載。