1. 程式人生 > 資訊 >高糊視訊秒變 4K,速度比 TecoGAN 快了 9 倍,東南大學提出新的視訊超解析度系統

高糊視訊秒變 4K,速度比 TecoGAN 快了 9 倍,東南大學提出新的視訊超解析度系統

把高糊視訊變清晰,對於 AI 而言算不上新鮮事。

但如果是實時處理,而且速度比主流方法還快了 9 倍呢?

而且計算量降低了,重建影象的質量卻還非常能打:

這種影象質量和速度效能之間的平衡到底是怎麼做到的?

今天就來看看東南大學的研究者們帶來的最新研究:4K 視訊實時超解析度系統 EGVSR。

GAN 保證重建質量

為了使模型具有良好的感知質量,生成對抗網路 GAN 成為了超解析度研究中廣泛使用的一種方法。

比如,要處理 VSR 任務中大規模的解析度退化,就常常依靠 GAN 的深度特徵學習能力。

於是參考 TecoGAN 的設計,EGVSR 系統引入了空間-時間對抗結構,用來幫助判別器理解和學習空間-時間資訊的分佈。

也避免了傳統 GAN 在時域遇到的不穩定效應。

同時,研究者參照高效 CNN 架構,為 EGVSR 設計了一個輕量級的網路結構:

▲EGVSR 生成器的部分框架

其中,生成器部分分為 FNet 模組和 SRNet 模組,分別用於光流估計和視訊幀超解析度。

接下來,就是增強 EGVSR 的實時處理能力了。

三種方法提升速度

研究者主要通過三種方法來提高網路訓練和推理的速度。

一、對 BN 層進行優化。

在 EGVSR 網路中,FNet 模組裡大量使用了 BN(批量歸一化)層。

因此,研究者省去計算 BN 的環節,將其轉換為矩陣形式,利用 1×1 卷積層來實現和替換 BN 層:

優化之後,速度就提高了 5% 左右。

二、尋找高效的上取樣方法。

上取樣層(Upsampling layer)是超解析度網路中最重要的部分之一。

因此,在保持其他網路結構和配置的情況下,研究者希望從以下三種上取樣方法中,選擇出一種在實際 SR 網路中效率最高的:

A. 調整大小卷積(使用雙線性插值)

B. 去卷積(Deconvolution)

C. 子畫素卷積(Sub-pixel convolution)

在使用這三種方法訓練了多組 SR 網路後,可以看到子畫素卷積方法的效果最佳:

三、設計一種適合硬體部署的高效卷積演算法

傳統的樸素卷積(Nnaïve Convolution)方法使用了 6 個迴圈結構,這導致它的計算效率相當低。

因此,研究者們使用矩陣乘法(MatMul)演算法通過逆向 col2im 轉換得到所需的輸出特徵結果。

這樣,就將卷積計算轉換為了矩陣乘法。

也就通過記憶體空間節省了推理時間,最終提高計算效率。

效能提升 7.92 倍

那麼最終速度提升的效果如何呢?

可以看到,在使用 CPU 時,對比經典的 TecoGAN 演算法,VESPCN 的速度最高能提升 9.05 倍。

而在使用 GPU 加速時,VESPCN 最高也能比 TecoGAN 的效能提升 7.92 倍。

如果從總計算成本來看,EGVSR 僅為 VESPCN 的 29.57%,SOFVSR 的 12.63%,FRVSR 和 TecoGAN 的 14.96%。

與此同時,EGVSR 也取得了較高的影象細節重建質量,結果最接近 GT(Ground Truth)影象:

而對於多張影象之間的連貫性評估,研究者們引入了兩個指標來衡量 VSR 結果與相應的 GT 參考結果之間的差異:

tOF:測量從序列中估計的運動的畫素差異;

tLP:使用深度特徵圖測量感知上的變化。

從結果可以看到 VESPCN 的分數最小:

這說明了在滿足時間連貫性的情況下,EGVSR 網路可以恢復更多的空間細節,滿足人眼的主觀感受。

所有實驗的結果都表明,EGVSR 確實在保證 VSR 高視覺質量的前提下,將計算負載降低到最低要求,完成了 4K VSR 在硬體平臺上的實時實現。

研究團隊

論文的前三位作者都來自東南大學的國際資訊顯示與視覺化聯合研究實驗室。

一作 Yanpeng Cao 目前研究生在讀,主要研究方向為加密域影象處理和影象超解析度等領域。

其餘兩位分別是 Chengcheng Wang 和 Changjun Song。

最後一位作者 He Li 來自劍橋大學的工程系。

論文地址:

https://arxiv.org/abs/2107.05307

下載:

https://github.com/Thmen/EGVSR