【CVPR 2022】論文閱讀:PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and Hallucination under Self-supervision
論文地址:https://arxiv.org/pdf/2203.15625.pdf
Github:https://github.com/Garfield-kh/PoseTriplet
單位:新加坡國立大學、南洋理工大學、華為
2022CVPR Oral Presentation
摘要
現有的自監督三維人體姿勢估計方法在很大程度上依賴於一致性損失等弱監督來指導學習,這不可避免地導致在真實場景中,不可見姿勢的結果較差。在本文中,作者提出了一種新的自監督方法,該方法允許通過self-enhancing dual-loop學習框架顯式生成2D-3D姿勢對以增強監督。這可以通過引入基於強化學習的imitator來實現,該imitator
1&2 Introduction&Related works
主要講之前的方法都是有監督的,需要標籤的訓練,當然也有采用半監督和弱監督的訓練方式,來解決3D標籤不足的問題。在本文中,作者提出一種新的自監督方法,作者的方法屬於單檢視環境下的自監督方法。與以往通過一致性或對抗實現弱監督訊號的自監督方法不同,該方法直接使用自生成資料中的強監督訊號,從而獲得更準確、更穩定的模型效能。半監督類別下的偽標籤策略與該方法非常接近。但是,作者的方法不需要真實標籤資料進行模型預訓練,引入了物理合理性改進和多樣性增強,以實現更好的效能。
3. Methodology
給定一段2D pose sequence x1:T
通常,姿勢估計器P通過完全監督學習方法,使用大量成對的2D和3D姿勢資料進行訓練,可表示為:
其中Lp表示損失函式,通常被定義為預測和真實3D姿態序列之間的均方誤差(MSE)。然而,真實3D姿勢資料的捕獲成本很高,這限制了這些方法的適用性。為了避免使用3D資料,以前的自監督方法通常採用弱2D再投影損失來學習三維估計器:
Ⅱ表示透視投影函式。再投影損失只提供了微弱的監督,這往往會導致不穩定或不自然的估計。在這項工作中,作者的目標是設計一個自我監督學習框架,其核心是一個迭代的自我改進正規化,作者建議使用一些專門設計的變換T來增強當前估計(例如,產生更平滑和多樣的運動):
然後將增強的估計投影到二維姿勢,以獲得成對的訓練資料{x′1:T,X′1:T},用於改進姿勢估計器:(X'是增強後的3D,x'是增強的3D投影得到的2D,Pθ(x'1:T)為輸入增強後的2D得到的3D估計)
這裡θn和θn+1表示當前估計器和改進估計器的引數。然後,可以利用改進的估計器開始資料增強和訓練的新迭代。基於這種自我改進的範例,可以從一組二維姿勢序列{x1:T}開始訓練一個效果良好的姿勢估計器。
3.1. PoseTriplet
為了構建一個有效的自我改進框架,作者確定了增強三維運動序列的兩個挑戰性方面:1)由於忽略力、質量和接觸建模,估計器的姿勢估計在物理上可能不合理;2) 現有的二維運動可能在多樣性方面受到限制,因此學習的模型不能很好地推廣。為了應對這些挑戰,作者引入了一種基於強化學習輔助人體運動建模的姿勢模擬器(pose imitator)和一種基於生成運動插值的姿勢幻覺器(pose hallucinator),從而對三維運動進行細化和多樣化。前者幫助糾正物理上不自然/反常的部分(physical artifacts),而後者生成新的基於已存在姿勢的姿勢序列。作者發現運動中的這兩個方面是互補的,因此將它們結合在一起。生成的管道有助於獲取3D運動資料{x'1:T,X′1:T},具有顯著改善的物理合理性和運動多樣性。然而,這兩種方法的簡單兩步組合會生成質量較差的3D姿勢序列,原因是,由於估計不可信,首先執行運動多樣化可能無效,而隨後執行運動多樣化可能會引入物理偽影。因此,作者進一步引入了一個雙環方案,並將這兩個分量與姿態估計器統一到一個新的自監督框架PoseTriplet中。
Dual-loop architecture 如Figure2所示,這個雙環結構包含三個模組:a pose estimator P, a pose imitatorI, 以及 a pose hallucinator H。給定一段2D pose sequence x1:T=(x1,…,xT)作為輸入,pose estimator首先將其轉換為低解析度的3D pose sequence:
{X-1:T}為被轉換為低解析度的相應動作,並作為語義引導訊號傳送給pose imitator,後者實施物理人體運動動力學建模,並獲得物理上合理的運動序列:
通過學習生成動作完全模型,然後pose hallucinator生成新穎且多樣的運動序列{`X 1:T}基於imitator改進的動作:
之後,不是將{`x1:T}作為estimator的增強資料來關閉迴圈,而是引入另一個迴圈。將{`x1:T}反饋給imitator,以糾正誘發的物理偽影,並獲得最終預期的合理且多樣的運動序列:
然後將{ˆX1:T}投影到2D以獲得配對資料{ˆx1:T,ˆX1:T}用於訓練姿勢估計器。
通過聯合優化這種雙環結構,三個組成部分形成了一個緊密的協同進化正規化:1)estimator受益於多樣且合理的增強資料,以學習更準確的估計。2) imitator根據改進的估計和hallucinator生成的各種資料學習更健壯、更自然的運動。3) hallucinator根據來自imitator的改進資料生成質量更高的各種姿勢序列。
Loop starting 這種自我提升學習正規化的另一個挑戰是迴圈啟動,不能獲取3D運動資料時,整個框架無法開始學習。回想一下,pose imitator採用基於物理的人體運動模型,因此作者開發了一種零資料生成策略,生成初始3D姿勢序列,用於啟動雙迴圈學習。具體來說,在水平面上以隨機方向和適當速度生成根軌跡訊號。然後,該軌跡被用作RL代理的制導訊號。通過控制代理跟隨生成的軌跡,可以生成物理上合理的運動序列。然後將這些運動序列投影以獲得2D-3D姿勢對,並用於訓練初始pose estimator。這樣,整個雙環學習就可以開始了。
3.2. Module detail
3.2.1 Pose estimator