視訊超分：FSTRN（Fast Spatio-Temporal Residual Network for Video Super-Resolution）

阿新 • • 發佈：2020-10-22

在這裡插入圖片描述

論文：視訊超分的快速時空殘差網路
文章檢索出處： 2019 CVPR
讀後感：模型單看架構圖就能瞭解七八，語言不夠精簡。唯一亮點為模型可行性分析部分，但是稍顯難懂晦澀。

摘要和簡介

為了同時利用視訊的空間和時間資訊，三維(3D)卷積是一種很好的方法。但是，直接使用3D卷積會導致計算複雜度過高，限制了模型的深度，從而影響效能。本文提出了一種新的快速時空殘差網路(FSTRN)，實現了SOTR的效果。具體地說：

提出了一種快速時空殘差塊(FRB)，它將每個三維濾波器劃分為兩個三維濾波器的乘積，可以大大降低計算負荷，同時通過更深的網路結構來提高效能。
設計了一種直接連線低分和高分空間的跨空間殘差學習方法(CRL)，可以大大減輕特徵融合和縮放部分的計算負擔

在這裡插入圖片描述

快速時空殘差網路

網路架構 (描述較細，可選看非流程圖部分)

FSTRN 主要由四個部分構成：LR淺特徵提取網(LFENet)、快速時空殘差塊(FRBs)、LR特徵融合和上取樣SR網(LSRNet)、LR空間殘差學習(LRL)和跨空間殘差學習(CRL)組成的全域性殘差學習(GRL)。
LFENet使用C3D層從LR視訊中提取特徵：在這裡插入圖片描述其中， F 0 L F_0^L F0L是提取的特徵圖的輸出， H L F E ( ⋅ ) H_{LFE}(·) HLFE(⋅)代表C3D操作。 F 0 L F_0^L F0L隨後用於LR空間的全域性殘差學習，並作為FRBs的輸入進行進一步的特徵提取。
FRBs用於提取LFENet輸出上的時空特徵。假設使用d個FRB，第一個FRB處理LFENet的輸出，隨後的FRB對前一個FRB輸出進一步提取特徵，那麼第可以表示為：

其中 H F R B , d H_{FRB,d} HFRB,d表示第d個FRB。除了FRBs之外，我們還進行了LR空間殘差學習(LRL)，以進一步提高LR空間中的特徵學習。
在這裡插入圖片描述

其中 F L R L L F_{LRL}^L FLRLL利用複合函式 H L R L H_{LRL} HLRL實現LRL的輸出特徵對映。在有效提取LRL特徵後，我們使用一個C3D進行特徵融合，然後使用一個反捲積進行上取樣，再使用一個C3D進行LSRNet中特徵通道的調優。輸出 F S R L F^L_{SR} FSRL，表示為:
在這裡插入圖片描述

其中，HLSR(·)表示LSRNet操作。最終，網路輸出由LSRNet的 F S R L F^L_{SR}

FSRL和附加LR到HR空間的全域性殘差組成，形成HR空間的跨空間殘差學習(CRL)。從LR空間到HR空間的輸入的SR對映表示為 F S R H F_{SR}^H FSRH，則FSTRN的輸出可得為:
在這裡插入圖片描述

H F S T R N H_{FSTRN} HFSTRN為所提的FSTRN方法函式，整體流圖如下。

在這裡插入圖片描述

快速時空殘差塊

從2D卷積到3D卷積需要更多的引數，就伴隨著更多的計算。為了解決這個問題，我們把C3D分解為兩個時空C3Ds — 從 k k k x k k k x k k k到1 x k k k x k k k加 k k k x 1 x 1。此外，我們還將啟用函式從ReLU改為PReLU，負部分的斜率是從資料中得知的，而不是預定義的。故FRB可以表示為: 在這裡插入圖片描述
其中， σ \sigma σ為PReLU啟用函式。 W d , s W_{d,s} Wd,s, W d , t W_{d,t} Wd,t分別對應FRB中空間卷積和時間卷積的權值，沒有顯示偏差項。因此，我們建立一個更大的基於C3D的模型，使得在有限的計算資源下，更好進行視訊超分。
在這裡插入圖片描述

全域性殘差學習

對於SR任務，輸入和輸出是高度相關的，所以輸入和輸出之間的殘差連線被廣泛使用。然而，之前的工作要麼是在放大的輸入上執行殘差學習，要麼是直接在輸入-輸出空間上執行殘差連線，再特徵融合和上取樣，這都會給這些層帶來很大的壓力。針對這些問題，我們提出了LR空間和HR空間上的全域性殘差學習(GRL)，它主要包括LR空間殘差學習(LRL)和跨空間殘差學習(CRL)兩部分。
在FRBs中引入LR空間殘差學習(LRL)。我們為它使用一個跟隨引數矯正線性單元(PReLU)的殘差連線。考慮到輸入幀之間的高度相似性，我們還引入了dropout層來增強網路的泛化能力。因此LRL的輸出 F L R L L F_{LRL}^L FLRLL為：
在這裡插入圖片描述
其中 σ L \sigma_L σL為PReLU與dropout的組合函式。
跨空間殘差學習(CRL)使用一個簡單的SR對映將LR視訊直接對映到HR空間，然後新增到LSRNet結果中，形成HR空間的全域性殘差學習。具體來說，CRL在輸出中引入了一個內插的LR，這可以極大地減輕LSRNet的負擔，幫助改進SR的結果。LR到HR空間的對映可以表示為:
在這裡插入圖片描述
其中 F S R H F_{SR}^H FSRH是HR空間上的超分輸入對映。 H C R L H_{CRL} HCRL表示對映函式。對映函式的選擇儘可能簡單，以避免引入太多的額外計算成本，包括雙線性、最近、雙三次、面積和基於反褶積的插值。

理論分析

對FSTRN的泛化能力和可行性進行了分析，此處不過多論述，若有需求請參考原文。
在這裡插入圖片描述

實驗

實施細節

使用25 YUV當做資料集，並對視訊序列資料進行了資料增強。在裁剪過程中，我們取大空間尺寸為144×144，時間step為5，空間和時間步長(strides)分別設定為32和10。此外，我們考慮了訓練卷的翻轉和調換版本。特別地，我們將原始影象旋轉90°並水平和垂直翻轉。這樣，我們可以從原始的視訊資料生成到13020個。在此之後，訓練和測試的LR輸入生成過程被分為兩個階段:用一個標準偏差為2的高斯濾波器平滑每個原始幀，並使用雙三次方法對前一幀進行向下取樣。另外，為了在測試階段保持輸出幀數與原始視訊相等，對測試視訊頭部和尾部進行幀填充。經驗設定FRBs的數量和學習率分別為5和0.3。使用Adam優化器來最小化標準反向傳播的損失函式。我們從1e - 4的步長開始，當訓練損失停止下降時，我們把它減少了10倍。批處理大小是根據GPU記憶體大小設定的。使用Charbonnier損失函式，ε = 1e − 3。

對比實驗

FRB和C3D塊引數量和複雜度比較：
在這裡插入圖片描述

消融實驗

在這裡插入圖片描述

量化評估

與SOTR模型的對比：
在這裡插入圖片描述

僅供學習使用，請勿轉載。

視訊超分：FSTRN（Fast Spatio-Temporal Residual Network for Video Super-Resolution）

摘要和簡介