人臉對齊(二十)--PRN
Joint3D Face Reconstruction and Dense Alignment with Position Map Regression(PRN2018)
我們從之前的論文可以看出,基本的3D人臉對齊,稠密人臉對齊,人臉重建,主要分兩個方向,一是3DMM+特徵的方式訓練人臉模型和投影矩陣(PIFAs,3DDFA等),另外一個方向就是訓練畫素級點對點對映(3D空間人臉和2D影象人臉)。
本文同時預測稠密人臉特徵點和3D人臉重建,即3Dmesh的頂點座標x,y,z。作者號稱比之前所有的人臉重建和稠密人臉對齊方法在各種資料集上都好。
主要貢獻:
1.首次同時解決端到端的人臉對齊和3D人臉重建
2.提出UV位置圖,記錄3D人臉位置資訊
3.不同位置有不同loss權重
4.9.8ms,100FPS,在個別資料集上,有25%的效能提升。(實測1050Ti,約1s,尷尬)
3D人臉表示
通常一個簡單的方式是,將3D臉上的所有點,連線成一個向量,用一個網路預測,但是這種方式在訓練時會增加困難,因為3D點要經過投射到2D影象,再到1維向量,丟失了點與點之間的空間資訊。其他一些3D人臉表示方法(看論文)在表達能力,複雜度,價效比方面都有不足。
本文通過將mesh的頂點用uv圖表示,從而達到了將mesh用一個固定大小的張量表示(256×256×3)。一個3D人臉的紋理資訊可以用uv資訊找到。而作者則利用了這一點,將40K的頂點對映到了256×256(60K+個頂點)的圖片過去,每個點的內容為歸一化後的頂點座標x,y,z。作者這個uv圖做的很好,每個頂點對映到這張uv圖上都沒有重疊的。如下:
上圖左邊是真實圖片和相應的3D人臉。右邊上面那一行分別是:真實圖片,uv紋理圖,mesh對映到uv圖上;下一行分別是mesh對映到uv圖上的x,y,z。
為了保持點的語義意義,UV座標是基於3DMM計算的。資料300W-LP,模型BFM,作者將UV座標與BFM模型對應。
有了上面的表示方法,就可以用CNN網路像預測一張圖片那樣直接預測頂點座標了,下圖:
網路表達RGB影象編碼,解碼的結構,前面通過10個殘差塊,編碼256*256*3的RGB影象為8*8*512的特徵圖,解碼部分包含17個卷積層,生成256*256*3的位置圖。
損失定義為真值位置圖與網路輸出位置圖的差異,作者採用位置圖上所有點不同加權掩碼的MSE損失。 如下圖:
上圖分別是紋理uv圖,mesh頂點uv圖,不同區域的加權(4個大區域,特徵點,鼻子眼睛嘴,人臉其他部分,脖子),加權比例圖(16:4:3:0)。加權是在損失函式上進行的:
其中P和P~ 是預測的座標點和真是的座標點,W就是加權圖。每個W與每個P或者P~對應。
結果顯示紋理有鋸齒狀