1. 程式人生 > >《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network》閱讀筆記

《Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network》閱讀筆記

本文提出了一種利用生成對抗網路(GAN)對低解析度單一影象進行超解析度(super-resolution)的網路結構,作為GAN的一種重要應用,很值得去學習研究。閱讀原文點這裡

Abstract

儘管我們已經利用更快更深的卷積神經網路(CNN)突破了單一影象超解析度的速度和精度,但有一箇中心問題仍沒有完美解決:當對放大很多倍的影象進行超解析度時,我們該如何更好的恢復影象的紋理細節?
以最優化思想為基礎的超解析度方法主要受到目標函式的驅使,最近的一些相關專案均以最小化平均方差重建誤差為目標,這樣得到的結果有很大的信噪比,但是往往影象會缺失高頻細節並且視覺效果很差。
因此,作者提出了SRGAN,這是第一個對放大四倍自然影象做超解析度的框架。為了實現這個框架,作者提出了由adversarial loss

content loss組成的perceputal loss functionadversarial loss由判別器生成,使我們生成的影象更加接近自然影象。content loss由影象的視覺相似性生成,而不是畫素空間的相似性。並且本文的深度殘差網路可以從深度降取樣的影象恢復逼真的紋理。作者採用mean-opinion-score(MOS)測試作為影象效果的評判,最後的測試結果表明採用SRGAN獲得的影象的MOS值比採用其他頂級的方法獲得的影象的MOS值更加接近原始的高分辨影象。

Introduction

超解析度(SR)指的是由低分辨(LR)影象生成高分辨(HR)影象的技術,SR受到計算機視覺領域的持續關注並且已經有了廣泛的應用。
目前被大多人採用的以最優化目標函式為基礎的監督SR演算法存在缺失影象高頻紋理細節的問題,使生成的影象很模糊。這種演算法大多以均方誤差(MSE)為目標函式進行優化,在減小均方誤差的同時又可以增大信噪比(PSNR)。但是MSE和PSNR值的高低並不能很好的表示視覺效果的好壞。正如在下面圖片表現出的,PSNR最高並不能反映SR效果最好。
圖片 1


因此,作者提出以深度殘差網路(ResNet)作為生成器的生成對抗網路,與以往不同的是,ResNet的優化目標不止MSE,還有VGG網路與判別器構成的perceptual loss.

Contribution

  • 建立了以PSNR和結構相似性(structural similarty,SSIM)為評判標準的SRResNet來對放大4倍的影象做超解析度。
  • 提出的SRGAN以perceptual loss為優化目標,我們用VGG網路特徵圖譜的損失函式取代了以MSE為基礎的content loss
  • 我們對生成的圖片進行MOS測試。

Method

在訓練SRGAN網路的過程中需要提供HR圖片,作者首先對HR圖片進行降取樣得到LR圖片,然後將LR圖片輸入,訓練生成器,使之生成對應的HR圖片。訓練生成器的過程與訓練前饋CNN一樣,都是對網路引數θ

G進行優化,如下所示:
公式
需要注意的是在這裡用的是perceptual loss—lSR
進一步,作者定義了判別器DθG,如同跟Following Goodfellow提出的GAN網路一樣,生成器和判別器交替優化下面這個式子:
這裡寫圖片描述

網路結構如圖所示

這裡寫圖片描述

perceptual loss function

perceptual loss的定義對於生成器的表演十分關鍵,通過對content loss和adversarial loss分別賦予權重,得到下式:
這裡寫圖片描述

  1. Content loss
    大部分用來做影象超解析度的演算法都用MSE作為損失函式來進行優化,可以得到很高的信噪比,但是這樣的方式產生的影象存在高頻細節缺失的問題。
    這裡寫圖片描述
    因此,作者定義了以預訓練19層VGG網路的ReLU啟用層為基礎的VGG loss:
    這裡寫圖片描述
    ϕi,j表示VGG19網路當中第i層maxpooling層後的第j個卷積層得到的特徵圖譜。
    Wi,jHi,j分別表示VGG網路中特徵圖譜的維度。

  2. Adversarial loss
    作者將GAN中生成器對perpetual loss的影響通過adversarial loss體現出來。這一部分損失函式使我們的網路通過“欺騙”判別器從而偏向生成輸出更接近自然影象的輸出。
    這裡寫圖片描述
    這裡,DθG(GθG(ILR))表示的是判別器將生成器生成的影象GθG(ILR)判定為自然影象的概率。

Experiment

  1. MOS平均意見得分
    這裡寫圖片描述
    這裡表現的人眼對於影象效果的評價

  2. final networks
    這裡寫圖片描述