1. 程式人生 > >這個面部3D重建模型,造出了6000多個名人的數字面具

這個面部3D重建模型,造出了6000多個名人的數字面具

  馬克斯·普朗克電腦科學研究所、斯坦福大學等近期提出了一種新型的面部三維重建模型,效果驚豔。該模型基於自監督學習,使用了來自 YouTube 抓取的 6000 多個名人的視訊片段進行訓練;其能以任意幀數重建人臉面部,適用於單目和多幀重建。特別是,該模型可以完全從零開始學習,將面部的多種特徵分離再重新組合,結構化程度很高。

  人臉除了沒有皺紋以外,身份特徵和麵部表情都和原人相當一致,陰影效果也高度還原。只是眼睛部分似乎不太對,顯得渾濁無神,看看視訊會更清楚。

  這個合成效果也很不錯,表情動態很到位。只是可能原人的眼神實在太有戲,AI 也表示無力模仿。

  值得注意的是,這個面部重建模型的 pipeline 很複雜,但又幾乎無處不在使用深度學習。重建面部不能很好地還原皺紋,可能是因為自監督學習過程中多幀影象面部動作的正則化作用,但從另一方面來看,這也使得身份重建更加魯棒。

  FML (short version)自動播放

  00:54

  簡言之,研究者把面部分解成了反照率、三維幾何形狀和光照等特徵,再進行組合重建。如下圖所示,overlay 是最終合成結果。

  圖 1:本文提出了基於 in-the-wild 視訊資料的深度網路的多幀自監督訓練,以聯合學習面部模型和 3D 面部重建。該方法成功地解糾纏了面部形狀、外觀、表情和場景光照。

  如下圖所示,研究者還提供了 200 多個重建結果展示。

  展示地址:https://gvv.mpi-inf.mpg.de/projects/FML19/visualizeResults.html

  以下是和其它已有方法的比較。從圖中的效果看來,該模型合成的各種特徵都能很好地貼合面部,不受側面視角影響。

  圖 6:與 Tewari 等人 [59] 的方法比較。當面部大部分被遮擋時,該方法也優於 Tewari 等人的方法。

  除了還原度以外,其相對於其它方法可以更好地分離不同特徵。

  圖 8:與 Tran 等人 [62] 的方法對比。我們可以估計更好的幾何形狀,並將反射與光照分離。注意 Tran 等人的方法不能分離反射和光照(或陰影)。

  研究者使用了 VoxCeleb2 多幀視訊資料集來訓練模型。該資料集包含從 Youtube 抓取的 6000 多個名人的超過 140k 部視訊。他們一共從這個資料集取樣了 N=404k 的多幀影象第 l 個多幀影象由 M=4 幀的從同一部視訊中的同一個人提取組成的,以避免不必要的變化,例如年齡和飾物。

  引言

  從視覺資料重建面部在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識別以及與多媒體相關的互動式影象/視訊編輯任務。面部影象和視訊無處不在,因為智慧裝置、消費者和專業相機提供了連續且幾乎無窮無盡的來源。當在沒有受控場景定位、照明或侵入式裝置(例如,自我中心照相機或演員身上的動作追蹤標記)的情況下捕獲這樣的資料時,其屬於「in-the-wild」影象。通常,in-the-wild 資料具有低解析度、噪聲或包含運動和焦點模糊,使得重建問題比在受控設定中更難。來自 in-the-wild 單目 2D 影象和視訊資料的三維人臉重建涉及解糾纏面部形狀身份(中性幾何)、面板外觀(或反照率)和表情,以及估計場景光照和相機引數。其中一些屬性,例如反照率和光照,在單目影象中不易分離。此外,由於面部毛髮、太陽鏡和大幅頭部旋轉導致的不良場景照明、深度模糊以及遮擋使得 3D 面部重建變得複雜化。

  為了解決困難的單目三維人臉重建問題,大多數現有方法依賴於現有的強大的先驗模型,這些模型充當了其他不適定問題的正則化因子。儘管這些方法實現了令人印象深刻的面部形狀和反照率重建,但其使用的面部模型引入了固有的偏差。例如,3D Morphable Model(3DMM)基於相對較小規模的白種人演員的 3D 鐳射掃描集,從而限制了泛化到一般的現實世界身份和種族。隨著基於 CNN 的深度學習的興起,人們已經提出了各種技術,其除了 3D 重建之外還從單目影象執行面部模型學習。然而,這些方法嚴重依賴於已有的 3DMM 來解決單目重建設定的固有深度模糊。而有另一些工作就不需要類似 3DMM 的面部模型,基於照片集。然而,這些方法需要同一個目標的非常大量(例如,≈100)的面部影象,因此它們對訓練集有很高的要求。

  在本文中,研究者介紹了一種方法,該方法使用從網際網路視訊中抓取的剪輯來學習全面的人臉身份模型。該面部身份模型包括兩個部分:一個部件表徵面部身份的幾何形狀(modulo expressions),另一個部件表徵根據反照率的面部外觀。由於其對訓練資料的要求很低,該方法可以使用幾乎無窮無盡的社群資料,從而獲得具有更好泛化性的模型,而用鐳射掃描類似的一大群人進行模型建造幾乎是不可能的。與大多數以前的方法不同,該模型不需要已有的形狀標記和反照率模型作為初始化,而是從頭開始學習。因此,該方法適用於沒有現有模型,或者難以從 3D 掃描建立這樣的模型(例如,對於嬰兒的面部)的情況。

  從技術角度來看,本研究的主要貢獻之一是提出了新型的多幀一致性損失,這確保了面部身份和反照率重建在同一主體的幀之間是一致的。通過這種方式,可以避免許多單目方法中存在的深度模糊,並獲得更準確和更魯棒的面部幾何和反照率模型。此外,通過在本研究的學習面部識別模型和現有的 blendshape expression 模型之間強加正交性,該方法可以自動將面部表情從基於身份的幾何變化中解糾纏,而不需要求助於大量的手工製作的先驗。

  總之,本研究基於以下技術貢獻:

  一種深度神經網路,其從包含每個目標的多個幀的無約束影象的大資料集中學習面部形狀和外觀空間,例如多檢視序列,甚至單目視訊。

  通過投影到 blendshapes 的 nullspace 上進行顯式的混合形狀(blendshape)和身份的分離,從而實現多幀一致性損失。

  基於 Siamese 網路的新型多幀身份一致性損失,具有處理單目和多幀重建的能力。  鄭州治療不孕不育哪家好:http://jbk.39.net/yiyuanzaixian/zztjyy/鄭州哪家不孕不育醫院好:http://jbk.39.net/yiyuanzaixian/zztjyy/