2D 圖片變 3D:最新 3D GAN 可生成三維幾何資料,模型速度提升 7 倍
2D 圖片變 3D,還能給出 3D 幾何資料?
英偉達和斯坦福大學聯合推出的這個 GAN,真是重新整理了 3D GAN 的新高度。
而且生成畫質也更高,視角隨便搖,面部都沒有變形。
與過去傳統的方法相比,它在速度上能快出 7 倍,而佔用的記憶體卻不到其十六分之一。
最厲害的莫過於還可給出 3D 幾何資料,像這些石像效果,就是根據提取的位置資訊再渲染而得到的。
甚至還能實時互動編輯。
該框架一經發布,就在推特上吸引了大量網友圍觀,點贊量高達 600+。
怎麼樣?是不是再次重新整理你對 2D 升 3D 的想象了?
顯隱混合 + 雙重鑑別
事實上,只用一張單視角 2D 照片生成 3D 效果,此前已經有許多模型框架可以實現。
但是它們要麼需要計算量非常大,要麼給出的近似值與真正的 3D 效果不一致。
這就導致生成的效果會出現畫質低、變形等問題。
為了解決以上的問題,研究人員提出了一種顯隱混合神經網路架構(hybrid explicit-implicit network architecture)。
這種方法可以繞過計算上的限制,還能不過分依賴對影象的上取樣。
從對比中可以看出,純隱式神經網路(如 NeRF)使用帶有位置編碼(PE)的完全連線層(FC)來表示場景,會導致確定位置的速度很慢。
純顯式神經網路或混合了小型隱式解碼器的框架,雖然速度更快,但是卻不能保證高解析度的輸出效果。
而英偉達和斯坦福大學提出的這個新方法 EG3D,就
它主要包括一個以 StyleGAN2 為基礎的特徵生成器和對映網路,一個輕量級的特徵解碼器,一個神經渲染模組、一個超解析度模組和一個可以雙重識別位置的 StyleGAN2 鑑別器。
其中,神經網路的主幹為顯式表示,它能夠輸出 3D 座標;解碼器部分則為隱式表示。
與典型的多層感知機制相比,該方法在速度上可快出 7 倍,而佔用的記憶體卻不到其十六分之一。
與此同時,該方法還繼承了 StyleGAN2 的特性,比如效果良好的隱空間(latent space)。
比如,在資料集 FFHQ 中插值後,EG3D 的表現非常 nice:
該方法使用中等解析度(128 x 128)進行渲染,再用 2D 影象空間卷積來提高最終輸出的解析度和影象質量。
這種雙重鑑別,可以確保最終輸出影象和渲染輸出的一致性,從而避免在不同檢視下由於卷積層不一致而產生的問題。
▲兩圖中左半邊為最終輸出效果,右半邊為渲染輸出
而沒有使用雙重鑑別的方法,在嘴角這種細節上就會出現一些扭曲。
▲左圖未使用雙重鑑別;右圖為 EG3D 方法效果
資料上,與此前方法對比,EG3D 方法在 256 解析度、512 解析度下的距離得分(FID)、識別一致性(ID)、深度準確性和姿態準確性上,表現都更好。
團隊介紹
此項研究由英偉達和斯坦福大學共同完成。
共同一作共有 4 位,分別是:Eric R. Chan、Connor Z. Lin、Matthew A. Chan、Koki Nagano。
其中,Eric R. Chan 是斯坦福大學的一位博士研究生,此前曾參與過一些 2D 影象變 3D 的方法,比如 pi-GAN。
Connor Z. Lin 是斯坦福大學的一位正在讀博二的研究生,本科和碩士均就讀於卡內基梅隆大學,研究方向為計算機圖形學、深度學習等。
Matthew A. Chan 則是一位研究助理,以上三人均來自斯坦福大學計算機成像實驗室(Computational Imaging Lab)。
Koki Nagano 目前就職於英偉達,擔任高階研究員,研究方向為計算機圖形學,本科畢業於東京大學。
論文地址:
https://arxiv.org/abs/2112.07945
參考連結:
https://matthew-a-chan.github.io/EG3D/