1. 程式人生 > 實用技巧 >ICCV2019超解析度方向論文整理筆記

ICCV2019超解析度方向論文整理筆記

ICCV2019超解析度篇

IEEE International Conference on Computer Vision,即國際計算機視覺大會,與計算機視覺模式識別會議(CVPR))和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議。不同於在美國每年召開一次的CVPR和只在歐洲每兩年召開一次的ECCV,ICCV在世界範圍內每兩年召開一次。ICCV論文錄用率非常低,是三大會議中公認級別最高的。

ICCV共舉行了4天,在超解析度上收錄文章13篇。這裡僅對單影象超解析度相關的5篇論文作介紹。

相關筆記:

  1. ECCV2020超解析度方向論文整理筆記
  2. CVPR2020超解析度方向論文整理筆記
  3. NTIRE介紹和近年來超分SR結果展示
  4. 影象超解析度SR的背景概念性知識總結和幾篇重要論文介紹

文章目錄


1. EBPN: Embedded Block Residual Network

Embedded Block Residual Network: A Recursive Restoration Model for Single-Image Super-Resolution,

paper

塊殘差模組:不同的模組可恢復不同頻率的資訊,將前層難以恢復的資訊傳入更深的層進行恢復。

問題描述:

現有的模型方法無法區分影象頻率,這些模型中每一層都是根據上一層恢復的恢復來恢復紋理。對於淺層,引數可能適合於低頻資訊(具有簡單紋理),但不適合高頻資訊(具有複雜紋理)。對於較深的層,這些引數可以適合於高頻資訊,但在低頻資訊上過擬合。另外,低頻資訊由更簡單的結構和紋理組成,可以用更簡單的模組來進行恢復;較高頻率的資訊由複雜的結構和紋理組成,可以使用複雜的模組來實現。這就要求構建一個模組,將低頻和高頻分開。儘管殘差連線提供了一種將資訊拆分為已恢復和未恢復資訊的方法,但其殘差連線結構與分頻原理無關。相反,這些方法主張殘差連線以密集和直接的方式將淺層資訊傳遞到深層。但是,深層很容易在影象的低頻資訊上過度擬合。

基於以上分析,本文提出一種塊殘差模組(Block Residual Modual, BRM)的結構,將低頻和高頻分開,旨在恢復部分HR資訊,同時將剩餘資訊傳遞給更深層的模組以進行恢復。

在這裡插入圖片描述

如圖,該模組包含兩個資料流:超解析度流和反投影流。

超解析度流用以恢復較低頻率的資訊,是一個基本的反捲積網路,LR特徵圖 I x I_x Ix 通過使用一個反捲積層(也稱為轉置卷積,圖中up塊)和三個卷積層的堆疊,輸出為超解析度特徵圖 O x O_x Ox

反投影流用於計算超解析度流尚未恢復的資訊。反投影流採用一種操作,該操作首先將反捲積特徵圖下采樣到LR空間大小,然後計算下采樣特徵圖和輸入LR特徵圖的負值。計算出的殘差傳達了超解析度流無法恢復的資訊。然後,該殘差由區域性殘差學習階段處理,輸出一組編碼特徵 I x + 1 I_{x+1} Ix+1,這些特徵形成下一個BRM的輸入。

BRM以嵌入的方式構成,而不是簡單的堆疊方式。即,後一個BRM連線到前一個BRM的反投影流的輸出,依此類推。每個BRM都負責恢復其先前BRM的反投影流所產生的殘差特徵圖,反過來說,難以恢復的較高頻率的資訊將傳遞給後續模組。因此,較深的BRM總是嘗試還原較淺的BRM尚未還原的內容。這符合我們的期望。

網路的整體架構:

在這裡插入圖片描述

為了結合所有BRM的輸出,作者注意到深層模組恢復的資訊可以幫助改善淺層模組的恢復。對此,論文提出了一種遞迴融合技術,而不是簡單的求和。如圖,將每個BRM的超解析度流輸出從最後一個BRM開始向前遞迴融合,然後接一個卷積層。與簡單求和相比,該技術能夠以平滑的方式處理輸出,從而實現更好的重構。此外,為了避免訓練中出現梯度消失的問題,作者建議將每個BRM的輸出直接Concat連線到影象重建模組。最後利用3×3×64卷積核,產生3通道RGB影象。

作者使用L1損失作為訓練目標,然後使用L2損失進行微調。


結果對比:

作者取樣簡單的相加方式和遞迴融合方式進行了實驗對比

在這裡插入圖片描述

在測試集上的結果如下

在這裡插入圖片描述

引數比較

在這裡插入圖片描述


2. KMSR: Kernel Modeling

Kernel Modeling Super-Resolution on Real Low-Resolution Images,papercode

模糊核估計:在網路訓練時注入模糊核已模擬真實影象的退化過程。

問題描述:

給定高解析度影象(HR) y y y,經過退化後的對應低解析度影象(LR) x x x,這一過程可用下列公式表示:
x = ( y ∗ k ) ↓ s + n x=(y*k)\downarrow^s\large + n x=(yk)s+n

k k k:未知模糊核

↓ s \downarrow^s s:尺度為 s 的下采樣操作

n n n:噪聲

這表明,LR影象本質上是通過HR影象使用不同型別的模糊核生成的。以前的大多數方案LR影象基本是從對應HR影象進行雙三次插值獲得,即單一已知模糊核,與真實世界影象退化的方式明顯不同,因此其在現實場景中泛化和魯棒性都不高。作者提出了一個核心建模超解析度網路(Kernel Modeling Super-Resolution, KMSR),該網路在訓練中納入了模糊核建模。KMSR包括兩個階段:首先使用生成的對抗網路(GAN)建立一個現實的模糊核池,然後使用HR和由生成的核心構建的相應LR影象訓練超解析度網路。

假設從 n = 0 n=0 n=0,使用傳統的雙三次插值(bicubic)將LR放大到低質量HR影象 x ′ x^{\prime} x
x ′ = ( x ∗ b s ) x^{\prime}=(x*b_s) x=(xbs)

b s b_s bs:尺度為 s 的雙三次放大核

於是有: x ′ = ( ( y ∗ k ) ↓ s ) ∗ b s x^{\prime}=((y*k)\downarrow^s)*b_s x=((yk)s)bs,簡化為:
x ′ = y ∗ k ′ x^{\prime}=y*k^{\prime} x=yk

k ′ = ( k ∗ b s ) ↓ s k^{\prime}=(k*b_s)\downarrow^s k=(kbs)s

要訓練盲超分(模糊核未知),根據等式,我們需要獲得成對的訓練資料 y y y x ′ x^{\prime} x。而訓練GAN比較困難且不穩定,並且很難生成無偽影的影象。因此,作者使用GAN產生模糊核而不是影象。整體流程如下:

在這裡插入圖片描述

第一個階段:從真實影象中估計模糊核,這被用於訓練GAN網路,以產生大量逼真的模糊核。

第二個階段:將上面生成的模糊核用於建立相應的HR和LR影象的配對資料集,以訓練CNN網路。

模糊核池構建:

對真實影象,使用基於暗通道先驗方式進行核估計(具體見論文3.2節),得到模糊核集 K ′ K^{\prime} K。輸入的LR很難獲得,且核估計演算法比較昂貴,這導致收集的核數量核多樣性可能會受到限制。因此,作者使用GAN對估計的模糊核集 K ′ K^{\prime} K 的分佈進行建模,並生成一個更大的模糊核池 K + K^+ K+。這裡,作者使用WGAN-GP進行生成模糊核建模。

整體網路架構:

在這裡插入圖片描述

對HR影象y,從模糊核池中隨機選取模糊核 k ′ k^{\prime} k 與HR卷積生成低質量HR影象 x ′ x^{\prime} x,組成image-pairs進行訓練。

==訓練設定:==作者使用DPED資料集訓練GAN以生成模糊核池,使用DIV2K資料集作為HR影象,隨機選取模糊核池中模糊核與之進行卷積,得到輸入影象,以此訓練SR網路。

特別地:論文在3.1節中寫到"We upscale the LR image to a coarse HR image x ′ x^{\prime} x with the desired size r 1 × r 2 r_1×r_2 r1×r2 with traditional bicubic interpolation by the same factor s s s",表明粗(低質量)HR影象 x ′ x^{\prime} x 尺寸為 r 1 × r 2 r_1×r_2 r1×r2 ,那麼這裡SR網路的輸入為HR的尺寸大小,圖2中也沒有看到放大模組進行尺寸的放大。以此可以推理出,在實際測試的時候,對低解析度影象LR(尺寸為 r 1 / s × r 2 / s r_1/s ×r_2/s r1/s×r2/s ),先將其上取樣到HR尺寸(即為低質量HR影象,按作者公式,上取樣應為bicubic上取樣),然後輸入到SR網路中,進行高質量HR重建,即完全的模糊核估計,實際SR網路不包含上取樣放大部分。


結果對比:

在這裡插入圖片描述

在這裡插入圖片描述


3. SROBB

SROBB: Targeted Perceptual Loss for Single Image Super-Resolution,paper

損失函式新設計方式:從分割標籤生成OOB(Object, Background and Boundary) 標籤,來估計邊界合適的感知損失,同時考慮背景的紋理相似性。

現有的方法在整張影象上用相同的方式來估計重建誤差,而不考慮語義資訊。因此,作者提出基於感知損失的新估計方式,使用逐畫素損失、對抗損失和所提的目標感知損失優化網路,對不同語義級別的影象執行不同的懲罰。

網路的整體架構:

在這裡插入圖片描述

主架構與一些經典方法沒有太大的差別,作者主要關注於充分利用感知損失,使目標函式強制執行語義細節(影象包含物件、背景和邊界)。新的目標感知損失的生成方式示意圖如下:

在這裡插入圖片描述

分割標籤經過OBB生成器生成OBB標籤,與主網路生成的SR影象求其損失。

OBB標籤建立

使用來自COCO-Stuff資料集隨機的50K張影象,其中包含91個類別的用於分割任務的的語義標籤,考慮了具有“天空”、“植物”、“地面”和“水”類中的一個或多個景觀。然後將這些類分為一個“背景”類,再通過下圖的方式按畫素分割註釋轉換成OBB標籤。

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-7UcE43Tk-1603160437160)(ICCV2019.assets/OBB.png)]

首先,在顏色空間中通過邊緣檢測演算法(這裡為計算分割標籤的導數)檢測影象內不同物件的邊緣,為了使檢測出的物件類別的邊緣條帶更粗,使用大小為 d 1 d_1 d1 的圓盤進行膨脹,使條帶穿過所有邊界。最後,將結果區域標記為“邊界”類,它涵蓋了影象內不同類之間的邊界。特別地,將細分標籤中的“天空”、“植物”、“地面”和“水”類視為“背景”,所有剩餘的物件類別都被視為“物件”類別。

總目標感知損失

在這裡插入圖片描述

與邊緣相對應的邊界掩模: M O B B b o u n d a r y M_{OBB}^{boundary} MOBBboundary ,與紋理相對應的背景掩模: M O B B b a c k g r o u n d M_{OBB}^{background} MOBBbackground

$ \mathcal{G}_b$ ,$ \mathcal{G}_e$ ,$\mathcal{G}_o $ 為分別計算邊界,背景和物件的任意兩個給定影象之間的特徵空間距離的函式。由於不考慮物件的任何感知損失,直接將 γ \gamma γ 置0。

∘ \circ 表示逐畫素相乘。

Background ( G b \mathcal{G}_b Gb) :計算任意兩個給定影象之間特徵將四個類別作為背景:“天空”,“植物”,“地面”和“水”,選擇這些類別是因為它們的外觀特殊。具有這些標籤的區域的整體紋理比區域性空間關係和邊緣更重要。計算中級CNN特徵以估計SR和HR影象之間的感知相似度。在這裡,使用VGG-16的ReLU 4-3層。

Boundary ( G e \mathcal{G}_e Ge) :分離物件和背景的所有邊緣均視為邊界。估計SR和HR影象之間早期CNN層的特徵距離,該特徵距離更多地集中在低層空間資訊上,主要是邊緣和斑點。特別是,最小化VGG-16的ReLU 2-2層的感知損失。

Object ( G o \mathcal{G}_o Go) :由於現實世界中形狀和紋理方面的物體種類繁多,因此要決定是否更適合使用早期或較深層的特徵來進行感知損失具有挑戰性;例如,在斑馬影象中,較銳利的邊緣比整體紋理更重要。話雖如此,強迫網路估計樹中的精確邊緣可能會誤導優化過程。因此,作者不對定義為物件的區域進行任何型別的知覺損失,方法是將它們加權為零,並依賴MSE和對抗損失。從直覺上講,通過“背景”和“邊界”感知損失項解決更逼真的紋理和更銳利的邊緣,也將導致物體更具吸引力。

為了計算特定影象區域的感知損失,作者對語義類進行了二進位制分割掩碼(對於感興趣的類,其畫素值為1;在其他位置,其畫素值為0)。每個掩模分類地表示影象的不同區域,並且分別與HR影象和估計的超分辨影象SR逐元素相乘。換句話說,對於給定的類別,在通過CNN特徵提取器之前,影象會被轉換為只有一個可見區域的黑色影象。

訓練過程

對SR解碼器進行25 epochs的預訓練,僅使用畫素均方誤差作為損失函式,然後加入所提的目標感知損失和對抗損失,繼續執行訓練55 epochs。

結果對比:

PSNR/SSIM指標不能反映重構的質量;使用所提的方法和SRGAN的重建影象沒有排名第一,但他們產生了更現實和吸引力的超分辨影象。因此,在這裡,作者只給出BSD100測試集上的定性結果。放大尺度為4。

在這裡插入圖片描述

LPIPS:the Learned Preceptual Image Patch Similarity,衡量SR與HR失真度的指標,越小越好。

圖源自補充材料。

另外,作者經過使用者研究,要求使用者針對真實影象對各種方法生成的影象進行投票選出效果更好的影象,另外為了公平性,還設定了"無法決定"選項。結果如下:

在這裡插入圖片描述

(a)投票百分比

(b)多數投票贏得影象的百分比


4. Wavelet Domain Style Transfer

Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single Image Super-Resolution,paper

小波域風格遷移:二維平穩小波變換將影象分解為低頻和高頻分量,達到超分影象低失真和高感知質量之間的權衡。

問題描述:

在SISR中,人們希望找到一種既準確又逼真的高解析度(HR)版本。最近,已經證明在低失真和高感知質量之間存在基本的權衡,並且生成對抗網路(GAN)被證明可以有效地接近感知失真(Perception-distortion, PD)。目前的很多方法在信噪比(PSNR)上獲得很好的表現,但在感知方面卻差強人意,如下圖不同SISR方法的感知失真效能比較:

在這裡插入圖片描述

藍點代表針對客觀質量的方法,綠點代表針對感知質量的方法,橙色點代表針對感知與失真之間權衡的方法。PSNR值越高表示目標質量越好,NRQM(No-Reference Quality Metric)得分越高則感知質量越好,左下角是最好的。作者的方法在所有“橙色”方法中實現了最佳折衷。

客觀和感知質量受影象中不同元素的影響。當整體進行優化時,客觀質量的提高可能會導致感知質量的下降,反之亦然。為了獲得最佳折衷,應該將影響客觀質量的要素與影響感知質量的要素分開,並分別進行優化。而作者發現,低頻分量在客觀質量中起重要作用,而高頻分量則可以顯著影響感知質量。在論文中,作者使用小波變換來實現這種分離。分離後,為了獲得最佳折衷,使用增強網路來改善低頻子帶的客觀質量,並使用小波域風格遷移來提高高頻子帶的感知質量。

客觀質量:為了提高客觀質量,大多數方法都試圖將重建影象與真實影象之間的MSE損失降至最低。這種方法可以生成具有高客觀質量的HR影象。但是,由於缺少高頻細節,這些影象通常在視覺上令人不快且邊緣模糊,尤其是對於較大的放大係數。

感知質量:由於MSE損失無法測量兩個影象之間的感知相似性,而VGG損失擅長表示兩個影象之間的感知相似性,並且對抗性損失會使恢復的影象看起來逼真,因此感知損失定義為VGG損失和對抗損失的加權和,之後又有方法提出增加紋理匹配損失,在重建具有高感知質量的影象方面取得了良好的效果。

平穩小波變換:

小波變換允許對影象進行多解析度分析。經典離散小波變換(DWT)不具有平移不變性,不適合SR任務。平穩小波變換(SWT)通過消除DWT中的下采樣操作來克服這一缺點。下圖給出了2D SWT過程:

在這裡插入圖片描述

其中 L L i LL_i LLi 表示第 i 級的低頻資訊( i 為小波分解級數), L H i , H L i , H H i LH_i,HL_i, HH_i LHi,HLi,HHi 分別表示第 i 級的水平、垂直和對角的細節,即其高頻資訊。

2D SWT可以將影象分解為多個子帶,包括一個低頻子帶和幾個高頻子。作者考慮了兩個超分辨影象:具有高感知質量但客觀質量較低的 A p A_p Ap 和具有高客觀質量但感知質量較低的 A o A_o Ao ,圖3顯示了這兩個影象以及SWT之後它們的子帶的直方圖。

在這裡插入圖片描述

可以看到,對低頻子帶, A o A_o Ao 與真實影象更相似,說明低頻子帶對影象的客觀質量有重要影響;對高頻子帶, A p A_p Ap 與真實影象更相似,說明高頻自帶對感知質量有顯著影響

網路整體架構:

在這裡插入圖片描述

給定一個高感知質量的影象 A p A_p Ap 和一個高客觀質量的 A o A_o Ao,分別進行2D SWT。然後,使用LSE網路提高 A o A_o Ao 的客觀質量(低頻子帶 L L o LL_o LLo);對於高頻子帶,使用WDST將它們融合成一個新的子帶。最後,將所有融合的高頻子帶和提高的 L L o LL_o LLo 通過ISWT獲得影象 A r A_r Ar

低頻子帶增強(Low-frequency sub-band enhancement, LSE):對於低頻子帶 L L o LL_o LLo,旨在增強其客觀質量。取樣VDSR架構,網路輸入為 L L o LL_o LLo,學習目標為真實影象的 L L g t LL^{gt} LLgt,損失函式為 L2 損失。

小波域風格遷移(Wavelet domain style transfer, WDST):對於高頻子帶,旨在提高其感知質量。以子帶對 L H p LH^p LHp L H o LH^o LHo 為例, L H p LH^p LHp 中的小波係數比 L H o LH^o LHo 中的豐富,即 L H p LH^p LHp L H o LH^o LHo 包含更多非零的小波係數。因此,我們希望在 L H p LH^p LHp L H o LH^o LHo 中傳遞詳細的小波係數,以使 L H o LH^o LHo 具有更高的感知質量。網路取樣VGG19架構, L H p LH^p LHp 為風格樣式輸入, L H o LH^o LHo 為生成內容輸入,以生成輸出子帶 L H r LH^r LHr 。與輸入為畫素值的傳統風格轉換演算法不同,作者在WDST中使用小波係數作為輸入。子帶 L H LH LH 的總損失為

在這裡插入圖片描述

L c L_c Lc:內容損失,定義為兩個特徵圖之間的MSE

L s L_s Ls :風格損失,定義為兩個特徵圖Gram矩陣之間的MSE

∣ ∣ L H r ∣ ∣ 1 ||LH^r||_1 LHr1 ℓ 1 \ell_1 1 正則損失,用以儲存小波係數的稀疏性

訓練設定: 對2D SWT,使用 b i o r 2.2 bior2.2 bior2.2 作為預設的小波濾波器,小波分解級數為2,意味著有一個低頻子帶和6個高頻子帶(如圖2)。使用EDSR方法獲得 A o A_o Ao,使用CX方法獲得 A p A_p Ap,使用NRQM計算感知分數。


結果對比:

在這裡插入圖片描述

不同方式獲取 A o A_o Ao A p A_p Ap 的結果:

在這裡插入圖片描述


5. RankSRGAN

RankSRGAN: Generative Adversarial Networks with Ranker for Image Super-Resolution,papercode

摘要:生成對抗網路(GAN)展示了為單個影象超解析度(SISR)恢復現實細節的潛力。為了進一步改善超分辨結果的視覺質量,PIRM2018-SR Challenge使用了感知指標來評估感知質量,例如PI,NIQE和Ma。但是,現有方法無法直接優化這些不可區分的感知指標,這些指標與人類評級高度相關。為了解決該問題,我們提出了帶有Ranker的SuperResolution生成對抗網路(RankSRGAN),以在感知指標的方向上優化生成器。具體來說,我們首先訓練一個Ranker,它可以學習感知指標的行為,然後引入一種新穎的等級內容損失來優化感知質量。最吸引人的部分是,該方法可以結合不同SR方法的優勢來產生更好的結果。大量的實驗表明,RankSRGAN在視覺效果上達到令人愉悅的效果,並達到了最先進的效能。

參考解讀ICCV 2019 | RankSRGAN:基於排序學習的生成對抗超解析度重建方法

影象超分辨論文解讀丨RankSRGAN

參考解讀ICCV 2019 | RankSRGAN:基於排序學習的生成對抗超解析度重建方法

影象超分辨論文解讀丨RankSRGAN