各路 StyleGAN 大彙總,包括全景圖生成、影象到影象翻譯等
StyleGAN 在各種影象處理和編輯任務上,表現很驚豔。
然而,“幹一種活”就得換個體系重新“培訓”一次,太麻煩。
終於,有人細細研究了一下,發現:
其實只通過預訓練和潛空間上的一點小操作,就可以讓 StyleGAN 直接上手各種“活兒”,包括全景圖生成、從單張影象生成、特徵插值、影象到影象翻譯等等。
更厲害的是,它在這些“活兒”上的表現還完全不輸每一位單項 SOTA 選手。
作者順勢做了個全面整理寫成了一篇論文,相關討論在 reddit 上直接收穫了 700 + 的熱度:
網友紛紛感嘆:這總結真的是太酷了!
All You Need:預訓練 + 一點空間操作
方法都非常簡單,我們一個一個來。
前提:fi∈RB×C×H×W 表示 StyleGAN 第 i 層的中間特徵(intermediate features)。
1、空間操作實現直觀和逼真的影象
由於 StyleGAN 是全卷積的,我們可以調整 fi 的空間維度,從而在輸出影象中引起相應的空間變化。
用簡單的空間操作(如 padding 和 resize),可以生成更直觀和真實的影象。
比如下圖通過複製灌木和樹叢來擴充套件背景,與導致紋理模糊等瑕疵的原始 resize 相比,在特徵空間中可以保持更真實的紋理。
2、特徵插值
對 StyleGAN 中間層進行拼貼可以實現影象資訊混合,但要拼接的兩張圖差異太大時效果往往不好。
但採用特徵插值就沒問題。
具體操作方法:在每個 StyleGAN 層,分別使用不同的潛噪聲生成 fAi 和 fBi。然後用下面這個公式將它倆進行平滑地混合,然後再傳遞到下一個卷積層進行同樣的操作。
其中 α∈ [0, 1] B×C×H×W 是一個 mask,如果用於水平混合,則 mask 將從左到右變大。
和對應模型的定性和定量比較:
該特徵插值法能夠無縫地混合兩幅影象,而 Suzuki 等人的結果存在明顯的偽影。
使用者研究中,與 Suzuki 等人相比,87.6% 的人也更喜歡該方法。
使用者研究包含 40 人,每人需比較不同方法下的 25 對影象。
3、從單個影象生成
除了在不同影象之間進行特徵插值,我們還可以在單個影象中應用它。
具體操作方法:在一些特徵層中,選擇相關的 patches,並將其與其他區域混合,在空間上進行復制。使用移位運算子 Shift(・):
這和 SinGAN 的功能相同,不過 SinGAN 涉及取樣,而該方法只需要手動選擇用於特徵插值的 patches.
和 SinGAN 的定性和定量比較:
該方法生成的影象更加多樣化和真實;SinGAN 則未能以“有意義”的方式改變教堂結構,併產生不夠真實的雲彩和風景。
使用者研究中,83.3% 的人更喜歡該方法生成的新影象。
4、改進 GAN 反演
GAN 反演的目的是在 W + 空間中定位一個樣式碼(style code),通過該樣式碼合成與給定目標影象相似的影象。
Wulff 等人的模型認為,在簡單的非線性變換下,W + 空間可以用高斯分佈建模。然而,在屬性轉移設定中,需要反轉源影象和參考影象,效果並不令人滿意。
最近的研究表明,與 W + 相比,利用 σ 進行面部操作的效能更好。
但作者發現,沒有任何變換的 σ 空間也可以建模為高斯分佈。
然後在這個空間而不是在 GAN 反轉期間,施加相同的高斯先驗。
效果比較:
該方法在影象重建和可編輯性方面獲得了顯著改進。
5、影象到影象翻譯
得益於上部分 σ 空間的效果,作者建議在影象到影象翻譯時 freeze 產生 σ 的仿射變換層(affine transformation layer),這一簡單的變化能夠更好地保留影象翻譯的語義(注意下圖 d 中嘴的形狀)。
此外,作者發現:
(1)可以在所有空間維度上使用常數 α 來執行連續翻譯;
(2)通過選擇要執行特徵插值的區域來執行區域性影象翻譯;
(3)以及使用改進的 GAN 反演在真實人臉上執行人臉編輯和翻譯;
這樣獲得的效果也更佳。
6、全景生成
作者通過“編織”兩幅影象的混合(span)生成全景圖,方法如圖所示:
重複這個過程可以生成任意長度的全景影象。
而且該方法不僅限於一次混合兩個影象、也不限於只在水平方向生成。
一些示例:
7、屬性轉移
為了使特徵插值能夠更好地用於任意人物姿勢的影象的屬性轉移,作者選擇在源影象和參考影象之間執行姿勢對齊,具體就是對齊 W + 空間樣式程式碼的前 2048 個維度。
然後就可以應用特徵插值將所選特徵進行源圖到目標圖的轉移了。
與現有方法比較:
Collins 等人的方法沒有準確地轉移細節屬性,Suzuki 等人在姿勢不匹配時產生的影象不夠真實。
而作者的方法既準確又真實。
使用者根據真實感和準確性進行選擇的結果也進一步驗證了該方法的優越性。
ps. 此外還可以在任意區域執行轉移,比如無縫融合兩邊眼睛明顯不同的兩半臉:
以上就是無需特定架構或訓練正規化、在 StyleGAN 模型潛空間中執行一些操作和微調,就能與其他影象處理任務達到同等或更佳效能的具體方法。
你覺得如何?還有什麼需要補充的嗎?歡迎在評論區留言。
論文地址:
https://arxiv.org/abs/2111.01619
專案地址:
https://github.com/mchong6/SOAT