1. 程式人生 > 實用技巧 >視訊超分:FSTRN(Fast Spatio-Temporal Residual Network for Video Super-Resolution)

視訊超分:FSTRN(Fast Spatio-Temporal Residual Network for Video Super-Resolution)

在這裡插入圖片描述

論文:視訊超分的快速時空殘差網路
文章檢索出處: 2019 CVPR
讀後感:模型單看架構圖就能瞭解七八,語言不夠精簡。唯一亮點為模型可行性分析部分,但是稍顯難懂晦澀。

摘要和簡介

為了同時利用視訊的空間和時間資訊,三維(3D)卷積是一種很好的方法。但是,直接使用3D卷積會導致計算複雜度過高,限制了模型的深度,從而影響效能。本文提出了一種新的快速時空殘差網路(FSTRN),實現了SOTR的效果。具體地說:

  1. 提出了一種快速時空殘差塊(FRB),它將每個三維濾波器劃分為兩個三維濾波器的乘積,可以大大降低計算負荷,同時通過更深的網路結構來提高效能。
  2. 設計了一種直接連線低分和高分空間的跨空間殘差學習方法(CRL),可以大大減輕特徵融合和縮放部分的計算負擔

在這裡插入圖片描述

快速時空殘差網路

網路架構 (描述較細,可選看非流程圖部分)

FSTRN 主要由四個部分構成:LR淺特徵提取網(LFENet)、快速時空殘差塊(FRBs)、LR特徵融合和上取樣SR網(LSRNet)、LR空間殘差學習(LRL)和跨空間殘差學習(CRL)組成的全域性殘差學習(GRL)。
LFENet使用C3D層從LR視訊中提取特徵:在這裡插入圖片描述其中, F 0 L F_0^L F0L是提取的特徵圖的輸出, H L F E ( ⋅ ) H_{LFE}(·) HLFE()代表C3D操作。 F 0 L F_0^L F0L隨後用於LR空間的全域性殘差學習,並作為FRBs的輸入進行進一步的特徵提取。
FRBs用於提取LFENet輸出上的時空特徵。假設使用d個FRB,第一個FRB處理LFENet的輸出,隨後的FRB對前一個FRB輸出進一步提取特徵,那麼第可以表示為:

在這裡插入圖片描述
其中 H F R B , d H_{FRB,d} HFRB,d表示第d個FRB。除了FRBs之外,我們還進行了LR空間殘差學習(LRL),以進一步提高LR空間中的特徵學習。
在這裡插入圖片描述
其中 F L R L L F_{LRL}^L FLRLL利用複合函式 H L R L H_{LRL} HLRL實現LRL的輸出特徵對映。在有效提取LRL特徵後,我們使用一個C3D進行特徵融合,然後使用一個反捲積進行上取樣,再使用一個C3D進行LSRNet中特徵通道的調優。輸出 F S R L F^L_{SR} FSRL,表示為:
在這裡插入圖片描述
其中,HLSR(·)表示LSRNet操作。最終,網路輸出由LSRNet的 F S R L F^L_{SR}
FSRL
和附加LR到HR空間的全域性殘差組成,形成HR空間的跨空間殘差學習(CRL)。從LR空間到HR空間的輸入的SR對映表示為 F S R H F_{SR}^H FSRH,則FSTRN的輸出可得為:
在這裡插入圖片描述 H F S T R N H_{FSTRN} HFSTRN為所提的FSTRN方法函式,整體流圖如下。

在這裡插入圖片描述

快速時空殘差塊

從2D卷積到3D卷積需要更多的引數,就伴隨著更多的計算。為了解決這個問題,我們把C3D分解為兩個時空C3Ds — 從 k k k x k k k x k k k到1 x k k k x k k k k k k x 1 x 1。此外,我們還將啟用函式從ReLU改為PReLU,負部分的斜率是從資料中得知的,而不是預定義的。故FRB可以表示為:在這裡插入圖片描述
其中, σ \sigma σ為PReLU啟用函式。 W d , s W_{d,s} Wd,s, W d , t W_{d,t} Wd,t分別對應FRB中空間卷積和時間卷積的權值,沒有顯示偏差項。因此,我們建立一個更大的基於C3D的模型,使得在有限的計算資源下,更好進行視訊超分。
在這裡插入圖片描述

全域性殘差學習

對於SR任務,輸入和輸出是高度相關的,所以輸入和輸出之間的殘差連線被廣泛使用。然而,之前的工作要麼是在放大的輸入上執行殘差學習,要麼是直接在輸入-輸出空間上執行殘差連線,再特徵融合和上取樣,這都會給這些層帶來很大的壓力。針對這些問題,我們提出了LR空間和HR空間上的全域性殘差學習(GRL),它主要包括LR空間殘差學習(LRL)和跨空間殘差學習(CRL)兩部分。
在FRBs中引入LR空間殘差學習(LRL)。我們為它使用一個跟隨引數矯正線性單元(PReLU)的殘差連線。考慮到輸入幀之間的高度相似性,我們還引入了dropout層來增強網路的泛化能力。因此LRL的輸出 F L R L L F_{LRL}^L FLRLL為:
在這裡插入圖片描述
其中 σ L \sigma_L σL為PReLU與dropout的組合函式。
跨空間殘差學習(CRL)使用一個簡單的SR對映將LR視訊直接對映到HR空間,然後新增到LSRNet結果中,形成HR空間的全域性殘差學習。具體來說,CRL在輸出中引入了一個內插的LR,這可以極大地減輕LSRNet的負擔,幫助改進SR的結果。LR到HR空間的對映可以表示為:
在這裡插入圖片描述
其中 F S R H F_{SR}^H FSRH是HR空間上的超分輸入對映。 H C R L H_{CRL} HCRL表示對映函式。對映函式的選擇儘可能簡單,以避免引入太多的額外計算成本,包括雙線性、最近、雙三次、面積和基於反褶積的插值。


理論分析

對FSTRN的泛化能力和可行性進行了分析,此處不過多論述,若有需求請參考原文。
在這裡插入圖片描述在這裡插入圖片描述在這裡插入圖片描述


實驗

實施細節

使用25 YUV當做資料集,並對視訊序列資料進行了資料增強。在裁剪過程中,我們取大空間尺寸為144×144,時間step為5,空間和時間步長(strides)分別設定為32和10。此外,我們考慮了訓練卷的翻轉和調換版本。特別地,我們將原始影象旋轉90°並水平和垂直翻轉。這樣,我們可以從原始的視訊資料生成到13020個。在此之後,訓練和測試的LR輸入生成過程被分為兩個階段:用一個標準偏差為2的高斯濾波器平滑每個原始幀,並使用雙三次方法對前一幀進行向下取樣。另外,為了在測試階段保持輸出幀數與原始視訊相等,對測試視訊頭部和尾部進行幀填充。經驗設定FRBs的數量和學習率分別為5和0.3。使用Adam優化器來最小化標準反向傳播的損失函式。我們從1e - 4的步長開始,當訓練損失停止下降時,我們把它減少了10倍。批處理大小是根據GPU記憶體大小設定的。使用Charbonnier損失函式,ε = 1e − 3。

對比實驗

FRB和C3D塊引數量和複雜度比較:
在這裡插入圖片描述

消融實驗

在這裡插入圖片描述

量化評估

與SOTR模型的對比:
在這裡插入圖片描述
在這裡插入圖片描述
僅供學習使用,請勿轉載。