Stacked Hourglass Networks for Human Pose Estimation
阿新 • • 發佈:2018-12-02
介紹
這是一篇2016年做單人姿態估計的文章
實驗用的是MPII sigle 和 FLIC ,指標PCKh
通過堆疊沙漏結構的網路進行人體姿態估計
沙漏結構指通過pooling得到低解析度的特徵,然後通過上取樣得到高解析度特徵的網路結構
論文指出該網路可以捕獲並控制影象所有尺度上的資訊。
另一方面,沙漏網路區別於先前的設計,主要在其更對稱的拓撲結構。
通過連續堆放這樣的沙漏網路,可以實現重複的bottom-up,top-down的推理
論文所提結構成功的原因有兩點:
- 上述的重複雙向推理
- 訓練過程中使用了中間監督
這個單沙漏網路的特點在於在推導heatmap時,既使用到高層的語義,也結合了底層的紋理資訊,這樣使得定位更加準確
然後通過多個沙漏網路堆疊方式,讓後面的網路學習前面網路學習不到的東西,即更難的骨骼關鍵點檢測,finetune再finetune,取得更好的結果下面左邊的圖展示了,第二層hourglass輸出和最後一層(第八層)的結果對比,從例子看明顯第八層的finetune後結果比第二層要好不少
上面右邊的圖是為了說明效能提升究竟是加深網路導致的,還是本文所提的堆疊多個finetune沙漏結構所取得的
中間的圖是PCKh結果,上面的點是各網路各子沙漏的結果,同意網路,越往後的層效果越好,網路深度相同的情況下,分越多的子沙漏會比分的少網路,最終輸出的結果會高那麼一點點
感覺這裡缺了一個單層的結果,即沒有finetune時的效果,當然也可以把總網路的一半當作是單層效果,分別看分兩層和4層的效果如何(0.846,0.865,0.871)