1. 程式人生 > >Fine-Grained Head Pose Estimation Without Keypoints

Fine-Grained Head Pose Estimation Without Keypoints

Abstract

傳統的頭部姿態計算是通過從目標面部提取關鍵點,本文認為這是沒有效率的。我們在300W-LP(一個大型的綜合擴充套件資料集)上提出了一種優雅而魯棒的訓練多重損失卷積神經網路確定內稟尤拉角(橫擺、俯仰和橫搖)的方法。

github原始碼地址:https://github.com/natanielruiz/deep-head-pose

Introduction

在過去的25年中,頭部姿態估計和麵部表情跟蹤的相關問題在驅動用於非剛性配準和3D重建的視覺技術,以及使新的方法能夠操縱多媒體內容和與使用者互動方面發揮了重要作用。歷史上,人臉建模有幾種主要方法,其中兩種主要方法是基於區分/里程碑的方法[26,29]和引數化外觀模型,或者PAM[4,15](參見[30]以供進一步討論)。近年來,利用現代深層學習工具[2,35,14]直接提取二維人臉關鍵點的方法由於其對遮擋和極端姿態變化的靈活性和魯棒性,已成為面部表情分析的主流方法。基於關鍵點的面部表情分析的副產品是通過建立關鍵點和3D頭部模型之間的對應關係並執行對齊來恢復頭部的3D姿態的能力。然而,在一些應用中,頭部姿勢可能是所有需要估計的。在這種情況下,基於關鍵點的方法仍然是最好的方法嗎?這個問題還沒有用現代的深層學習工具來徹底解決,這是本文試圖在文獻中的空白。我們證明了使用卷積神經網路從影象強度估計3D頭部姿態的直接的整體方法與基於關鍵點的方法相比具有更高的精度。雖然關鍵點探測器能大大提高識別率,但頭位恢復本身卻存在許多出錯的機會。首先,如果無法檢測到這些關鍵點,那麼姿態恢復是不可能的。第二,三維頭部模型的質量依賴於估計精度。通用的頭部模型可以為任何給定的參與者引入錯誤,並且使頭部模型變形以適應每個參與者的過程需要大量的資料,並且可能計算昂貴。雖然現在正在研究聯合預測頭部姿勢和麵部標誌的關鍵點,但是這種情況下的目標是提高面部標誌預測的準確性,並且頭部姿勢分支本身並不足夠精確:例如[14,20,21]。在第4.1和4.3節中進行了研究。一種直接預測頭部姿態的conv-net體系結構具有更簡單、更精確和更快的潛力。雖然其他的工作已經解決了使用conv-nets[31,19,3]從影象中直接回歸姿態的問題,但是它們沒有包括對現代深層體系結構的基準測試的理解。