1. 程式人生 > >Paper reading:BodyNet: Volumetric Inference of 3D Human Body Shapes

Paper reading:BodyNet: Volumetric Inference of 3D Human Body Shapes

標題:BodyNet: Volumetric Inference of 3D Human Body Shapes

作者:Gul Varol, Duygu Ceylan Bryan Russell Jimei Yang Ersin Yumer,z Ivan Laptev,Cordelia Schmid, Inria, France ,Adobe Research, USA

今天介紹的文章是“BodyNet: Volumetric Inference of 3D Human Body Shapes”——BodyNet:3D人體形狀的體積推斷。

人體形狀估計是視訊編輯,動畫和時尚產業的一個重要任務。然而,由於諸如人體,衣服和視點的變化等因素,從自然影象預測3D人體形狀是非常具有挑戰性的。解決該問題的現有方法通常是在已知特定的姿態和形狀的先驗條件下,擬合對應的引數化人體模型。在文章中,作者提出了一種可替代的表示方法——BodyNet,一個用單張影象可以直接推斷體素表達人體形狀的神經網路。BodyNet是一個端到端的網路,這主要得益於三個方面:1)3D的體素損失,2)多視角重投影損失,3)2D位姿,2D身體部位分割和3D位姿的中間監督。在作者的實驗中證明了,上述的三個方面都能夠使得效能提高。

在這裡插入圖片描述

如圖1所示,作者提出的BodyNet能夠從單張圖片中預測出一個三維體素的人體。可以看到每組圖片左側是輸入圖片,右側是預測的人體體素結構和預測的體素部件。

在這裡插入圖片描述

圖二顯示的是BodyNet具體的網路結構。輸入的RGB影象首先被傳送到2D位姿估計和2D人體部件分割的子網路。這個網路的預測結果結合原始影象的RGB特徵相結合,一起輸入到一個3D位姿預測的網路。所有的子網路結合到最後一個網路來推測體素形狀。在實驗中,2D位姿網路、2D分割網路和3D位姿網路都是經過預訓練的,然後為了得到最後體素的形狀,通過使用多視角重投影的損失將幾個網路聯合起來進行微調。最後,作者將SMPL模型與體積預測相匹配,以便進行評估。

下面幾個圖表是最終的實驗結果,可以看到效果還是非常不錯的!

在這裡插入圖片描述 在這裡插入圖片描述 在這裡插入圖片描述