1. 程式人生 > 其它 >論文閱讀筆記exploiting spatial dimensions of latenr in GAN for real-time image editing

論文閱讀筆記exploiting spatial dimensions of latenr in GAN for real-time image editing

所提出網路框架: 目標是使用編碼器將影象實時準確地投影到潛在空間,並在潛在空間上區域性操作影象

用GAN編輯真實影象的缺點是:i)耗時的優化,無法將真實影象投影到潛向量; ii)或通過編碼器嵌入不準確。

我們提出StyleMapGAN:中間潛在空間具有空間維度,而空間變異調製取代了AdaIN。與現有的基於優化的方法相比,它可通過編碼器進行嵌入,同時保持GAN的屬性。

實驗結果表明,在各種影象處理任務(例如本地編輯和影象插值)中,我們的方法明顯優於最新模型。最後但並非最不重要的一點是,GAN上的常規編輯方法在我們的StyleMapGAN上仍然有效
一、contributions

1、我們提出了StyleMapGAN,它利用了stylemap(一種潛在空間的新穎表示形式)。我們的關鍵思想很簡單,不是學習基於向量的潛在表示,我們使用具有顯式空間尺寸的張量。我們提出的表示法得益於其空間維度,使GAN可以輕鬆地將影象的區域性語義編碼到潛在空間中。此屬性使編碼器可以將影象有效地投影到潛在空間中,從而提供高保真度和實時投影。

2、我們的方法還提供了一種新功能,可通過操縱樣式圖的匹配位置來編輯影象的特定區域。

二、method

generator

要使用生成模型處理影象,首先需要將影象準確地投影到其潛在空間。

我們改變了StyleMap的空間解析度,並比較了重建和生成的效能。為了公平比較,我們在培訓StyleGAN2生成器之後培訓了編碼器模型。隨著空間解析度的增加,重建精度顯著提高。這表明我們的空間維度樣式圖對於影象投影是非常有效的。FID在不同的資料集上變化不同,這可能是由於一代人中不同位置之間的上下文關係不同。請注意,我們的空間解析度方法準確地保留了小細節,例如眼睛不模糊。

三、evaluation metrics

(1)Frechet inception distance (FID)
為了評估影象生成的效能,我們計算了從高斯分佈和訓練集生成的影象之間的FID [18]。我們將生成的樣本數設定為等於訓練樣本數。 我們使用ImageNet預訓練的Inception-V3 [54]進行特徵提取。

(2)FIDlerp

為了評估全域性操縱效能,我們計算插值樣本和訓練樣本(FIDlerp)之間的FID。為了生成內插樣本,我們首先將500張測試影象投影到潛在空間中,然後隨機選擇成對的潛在向量。然後,我們使用線性內插的潛在向量生成影象,該向量的內插係數在0和1之間隨機選擇。我們將插值樣本的數量設定為等於訓練樣本的數量。低FIDlerp表示該模型提供了高保真度和各種插值樣本。

(3)MSE & LPIPS
為了評估投影質量,我們估計目標影象和重建影象之間的畫素級和感知級差異,分別是均方差(MSE)和學習的感知影象斑塊相似度(LPIPS)。

(4)Average precision (AP)
為了評估本地編輯影象的質量,我們遵循先前工作的慣例,使用在真實影象和偽影象上訓練的二進位制分類器來測量平均精度。我們使用Blur + JPEG(0.5)模型和完整影象進行評估。較低的AP表示已處理的影象與真實影象更加難以區分。

(5)MSEsrc & MSEref
為了混合特定的語義,我們通過合併原始影象和參考影象的目標語義蒙版來製作合併的蒙版。MSEsrc和MSEref分別從蒙版外部的原始影象和蒙版內部的參考影象測量均方誤差。為了自然地組合它們,影象與目標語義掩碼相似度進行配對。為了在CelebA-HQ上進行本地編輯比較,每種語義(例如背景,頭髮)配對了250組測試影象,總共產生了2500張影象。為了在AFHQ上進行本地編輯,將250組測試影象隨機配對,並在水平和垂直半掩膜之間選擇掩膜,從而產生250幅影象。

https://zhuanlan.zhihu.com/p/370719891
https://blog.csdn.net/studyeboy/article/details/116455998