【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?
論文地址:https://arxiv.org/abs/1808.09316
論文總結
本文主要在生成遮擋策略的方向上進行實驗,得到實驗結果和對比。但由於當時的精度不是特別高,所以其中的一些結論現如今不一定完全適用。
實驗了幾種策略,單個矩形框、多個矩形框、多個條狀、多個圓形、VOC物件嵌入等方式,如下圖所示。
論文的結論是,VOC的嵌入式遮擋策略,對於多重遮擋情況的泛化能力較好。
論文介紹
本文自己實現了一個全卷積網路,預測3D的heatmap,目標是圖片空間的x,y以及相對根節點的z。遮擋的策略,是在單張RGB影象上進行的。單張RGB影象也就是網路的輸入。在該網路上,使用遮擋資料增強訓練的結果,不僅對受遮擋物件的魯棒性增強了,也對沒有遮擋的物件有所提升。作者認為這是由於遮擋所帶來的的正則化的表現結果。
實驗設定
由於網路是單張圖片輸入的,所以需要進行去取冗餘的操作:視訊序列中,只有與上一個持有幀距離30mm以上的才會加入訓練集;
輸入圖片需要將人物居中,放大到
256
∗
256
256*256
256∗256。將人體邊界框較長的部分縮放到圖片長度的80%。
進行遮擋的資料增強,使用黑色塊或者從VoC 2012中提取分割物件進行遮擋資料的生成。遮擋程度在
0
%
∼
70
%
0\%\sim70\%
0%∼70%之間。訓練的VoC物件和測試的VoC物件進行嚴格的分離,使用的random erasing為RE-0 variant。遮擋的策略都是單獨進行的,用以進行對比,遮擋的概率為50%。
實驗結果
進行對比的論文是《Coarse-to-fine volumetric prediction for single-image 3d human pose》,其MPJPE為64.8。本文自己實現的網路MPJPE為63.3。
各遮擋資料增強實驗的結果如下:
結論如下:
- 測試時,圓形遮擋導致的誤差最大,原因不明
- 測試時,其餘的遮擋策略中,矩陣是問題最小的遮擋方式;
- 訓練時,單個矩形資料增強的情況,只能適用於單個或多個矩形的遮擋,對其他的遮擋型別泛化不行,尤其是圓形表現的最糟糕;
- 訓練時,多個矩形資料增強的情況,比單個矩形資料增強的情況要好一些,但也難以泛化;
- 訓練時,圓形遮擋資料增強的情況,可以泛化到簡單的幾何遮擋,但對相對真實的VoC物件遮擋沒有幫助;
- 訓練時,VoC物件資料增強的情況,可以泛化到簡單的幾何遮擋和其他的VoC物件(訓練的VoC物件和測試的VoC物件是嚴格分開的)