僅靠合成數據就能實現真實人臉分析!微軟這項新研究告別人工標註
相信嗎?現在訓練資料也用合成的了。
而且人臉分析任務上,準確性還不輸真實資料的那種。這是微軟團隊的一項最新研究,論文標題就已經說明了一切。
Fake it till you make it.
文章介紹了一種程式生成的 3D 人臉模型與一個合成數據庫結合起來訓練影象,結果人臉解析等任務上,效果與真實資料相當。
研究人員表示,為一些不可能實現人工標註的地方,開闢了新方法。
是不是以後真就告別人工標註了?!
如何實現?
要想讓人臉資料集更加多樣化、豐富化,靠收集和標註越來越難以實現。
且不說收集,比如網路抓取,可能帶來重大的隱私和版權問題。而人工標註,很容易導致出錯或者標籤不一致的情況。
因此,研究團隊就考慮用合成數據來增加或替代真實資料。然鵝,此前因為人臉模型本身複雜實現難度較為困難。
那麼這次是如何實現的呢?
第一步,用程式生成合成面孔,包括身份、表情、面部紋理,以及髮型和衣著,不同光線環境下的效果。
所有這些資料都是獨立取樣,提前“手動”去除噪音,以確保建立更多樣化的個體。
比如在人臉模型上,就是這樣滴~
還有像衣著,則是由服裝設計師和模擬軟體設計師手工製作的,共有 30 套各種各樣的衣服。
還包括頭飾 (36 件)、面具 (7 件) 和眼鏡 (11 件) 。
除此以外,還合成了標籤。
接著到了訓練階段,研究人員建立了一個 10 萬張解析度為 512 × 512 的影象的資料集,並做了資料增強處理,共用了 150 張 NVIDIA M60 GPU 渲染 48 小時。
此外,團隊還訓練了人臉解析網路(僅使用合成數據)和標籤適應網路,以解決合成標籤和人工註釋標籤之間的系統差異。
最終,人臉分析、地標定位等任務上的效果與其他採用真實資料的模型相當。
不過,研究人員也承認這項技術仍然有一定侷限性。
比如人臉模型只有頭部和頸部、無法模擬真實的皺紋、隨機匹配人臉時會得到一些不合常理的面孔,比如有鬍鬚的女性。
在接下來的工作中,他們計劃將解決這些侷限性。
好了,感興趣的旁友可戳下方論文連結~
論文連結:
https://www.arxiv-vanity.com/papers/2109.15102/