1. 程式人生 > 資訊 >最新論文:用 GAN 監督學習給左晃右晃的貓狗加表情,很絲滑很貼合

最新論文:用 GAN 監督學習給左晃右晃的貓狗加表情,很絲滑很貼合

12 月 19 日訊息,生成性對抗網路 GAN 又被開發出一項“不正經”用途。給貓狗加表情:

給馬斯克加鬍子:

不管視訊中的腦袋怎麼左晃右晃,這些表情都能始終如一地貼合面部,且每一幀都表現得非常絲滑。

這就是朱儁彥等人的最新研究成果:

一種利用 GAN 監督學習實現的密集視覺對齊(Visual alignment)方法。

該方法的效能顯著優於目前的自監督演算法,在多個數據集上的效能都與 SOTA 演算法相當,有的甚至還實現了兩倍超越。

用 GAN 監督學習實現密集視覺對齊

視覺對齊是計算機視覺中光流、3D 匹配、醫學成像、跟蹤和增強現實等應用的一個關鍵要素。

直白地說,比如在人臉識別中,就是不管一張臉是倒著立著還是歪著,任何角度都可以精確識別出哪塊是眼睛哪塊是鼻子。

而開創性的無監督視覺對齊方法 Congealing,在 MNIST digits 這種簡單的二值影象(binary images)上表現得出奇好,在處理大多數具有顯著外觀和姿勢變化的資料集上就差了點。

為了解決這個問題,該團隊提出了這個叫做 GANgealing 的新視覺對齊方法

它是一種 GAN 監督演算法,同時也受到 Congealing 的啟發。

Congealing 模型的框架如下:

首先,在未對齊的資料上訓練生成器 G。

然後在生成器 G 的潛空間中通過學習模式 c,來建立一個合成數據集以進行後續對齊。

接著使用該資料集訓練空間變換網路 T(STN,Spatial Transformer Networks),最後在預測和目標影象中使用感知損失將未對齊的影象對映到相應的對齊影象。

該演算法的關鍵是利用 GAN 的潛空間(在未對齊的資料上訓練)為 STN 自動生成成對的訓練資料。

並且在這個 GAN 監督學習框架中,STN 和目標影象實現聯合學習模式,STN 專門使用 GAN 影象進行訓練,並在測試時推廣到真實影象。

實際效果如何?

實驗發現,GANgealing 在八個資料集(自行車、狗、貓、汽車、馬、電視等)上都能準確找出圖片之間的密集對應關係。

其中,每個資料集的第一行表示未對齊的影象和資料集的平均影象(每行最右那張),第二行為轉換後的對齊效果,第三行則顯示影象之間的密集對應關係。

在影象編輯應用中,GANgealing 可以只在平均影象(下圖最左)進行示範,就能在資料集中的其他影象上實現同樣的效果 —— 不管這些影象的角度和姿勢變換有多大。

比如第一行為給小貓加蝙蝠俠眼鏡,最後一行為給汽車車身貼上黑色圖案。

在視訊編輯中,GANgealing 在每一幀上的效果都相當絲滑,尤其是和監督光流演算法(比如如 RAFT)對比,差距非常明顯:

因此作者也表示,GANgealing 可以用在混合現實應用中

而在定量實驗中,GANgealing 在非常精確的閾值(<2 畫素誤差容限)條件下優於現有的監督方法,在有的資料集上甚至表現出很大的優勢。

再在具有挑戰的 SPair-71K 資料集上將 GANgealing 與幾種自監督 SOTA 方法進行效能評估。

比的則是 PCK-Transfer 值(PCK,percentage of keypoints),它衡量的是關鍵點從源影象轉換到目標影象的百分比。

結果發現,GANgealing 在 3 個類別上的表現都明顯優於目前的方法,尤其是在自行車和貓圖集上實現了對自監督方法 CNNgeo 和 A2Net 的兩倍超越。

當然,GANgealing 在資料集圖片與示例差太多時表現得就不太好,比如面對下面這種側臉的貓以及張開翅膀的小鳥。

作者介紹

GANgealing 的作者們分別來自 UC 伯克利、CMU、Adobe 以及 MIT。

一作為 UC 伯克利三年級的博士生 Bill Peebles,研究方向為無監督學習,重點是影象和視訊的深度生成模型。

目前在 CMU 擔任助理教授的青年大牛朱儁彥也在其中。

通訊作者為 Adobe Research 的高階首席科學家 Eli Shechtman,他發表了 100 多篇論文,曾獲得 ECCV 2002 最佳論文獎、WACV 2018 最佳論文獎、FG 2020 最佳論文亞軍以及 ICCV 2017 的時間檢驗獎等榮譽。

論文地址:點選開啟

程式碼:點選開啟

專案主頁:點選開啟