人體姿態識別研究綜述(詳細歸納!)(轉載)
一,人體姿態識別資料集
1,2D資料集:
LSP
地址:http://sam.johnson.io/research/lsp.html
樣本數:2K
關節點個數:14
全身,單人
FLIC
地址:https://bensapp.github.io/flic-dataset.html
樣本數:2W
關節點個數:9
全身,單人
MPII
地址:http://human-pose.mpi-inf.mpg.de/
樣本數:25K
關節點個數:16
全身,單人/多人,40K people,410 human activities
MSCOCO
地址:http://cocodataset.org/#download
樣本數:>= 30W
關節點個數:18
全身,多人,keypoints on 10W people
AI Challenge
地址:https://challenger.ai/competition/keypoint/subject
樣本數:21W Training, 3W Validation, 3W Testing
關節點個數:14
全身,多人,38W people
2,3D資料集:
在資料處理階段,3D比2D複雜很多。2D人體姿態識別在dataset和model方面都比3D成熟,2Dmodel也有很多戶外,自然界的dataset,但是3D的dataset幾乎都是indoor的。因為3D標註、識別的複雜,所以需要大量的感測器,攝像頭去採集資料。收集了幾個最近看到的資料集分享給大家。
- Human3.6M資料集 Human3.6M資料集有360萬個3D人體姿勢和相應的影象,共有11個實驗者(6男5女,論文一般選取1,5,6,7,8作為train,9,11作為test),共有17個動作場景,諸如討論、吃飯、運動、問候等動作。該資料由4個數字攝像機,1個時間感測器,10個運動攝像機捕獲。
- CMU Panoptic dataset 該資料集是CMU大學制作,由480個VGA攝像頭,30+HD攝像頭和10個Kinnect感測器採集。
- 3、MPI-INF-3DHP 該資料集由Max Planck Institute for Informatics製作,詳情可見Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision論文。
二,人體姿態估計重要論文
相關論文分享:連結:https://pan.baidu.com/s/1wVQJfPgyXVQAmdSIKQNPAA
提取碼:077o
1,單人姿態估計的重要論文
2014----Articulated Pose Estimation by a Graphical Model with ImageDependent Pairwise Relations
2014----DeepPose_Human Pose Estimation via Deep Neural Networks
2014----Joint Training of a Convolutional Network and a Graphical Model forHuman Pose Estimation
2014----Learning Human Pose Estimation Features with Convolutional Networks
2014----MoDeep_ A Deep Learning Framework Using Motion Features for HumanPose Estimation
2015----Efficient Object Localization Using Convolutional Networks
2015----Human Pose Estimation with Iterative Error
2015----Pose-based CNN Features for Action Recognition
2016----Advancing Hand Gesture Recognition with High Resolution ElectricalImpedance Tomography
2016----Chained Predictions Using Convolutional Neural Networks
2016----CPM----Convolutional Pose Machines
2016----CVPR-2016----End-to-End Learning of Deformable Mixture of Parts andDeep Convolutional Neural Networks for Human Pose Estimation
2016----Deep Learning of Local RGB-D Patches for 3D Object Detection and 6DPose Estimation
2016----PAFs----Realtime Multi-Person 2D Pose Estimation using PartAffinity Fields (openpose)
2016----Stacked hourglass----StackedHourglass Networks for Human Pose Estimation
2016----Structured Feature Learning for Pose Estimation
2017----Adversarial PoseNet_ A Structure-aware Convolutional Network forHuman pose estimation (alphapose)
2017----CVPR2017 oral----Realtime Multi-Person 2D Pose Estimation usingPart Affinity Fields
2017----Learning Feature Pyramids for Human Pose Estimation
2017----Multi-Context_Attention_for_Human_Pose_Estimation
2017----Self Adversarial Training for Human Pose Estimation
2,多人姿態估計的重要論文
2016----AssociativeEmbedding_End-to-End Learning for Joint Detection and Grouping
2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation
2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation_poster
2016----DeeperCut----DeeperCut A Deeper, Stronger, and Faster Multi-PersonPose Estimation Model
2017----G-RMI----Towards Accurate Multi-person Pose Estimation in the Wild
2017----RMPE_ Regional Multi-PersonPose Estimation
2018----Cascaded Pyramid Network for Multi-Person Pose Estimation
“級聯金字塔網路用於多人姿態估計”
2018----DensePose: Dense Human Pose Estimation in the Wild
”密集人體:野外人體姿勢估計“(精讀,DensePose有待於進一步研究)
2018---3D Human Pose Estimation in the Wild by Adversarial Learning
“對抗性學習在野外的人體姿態估計”
三,單人姿態估計
2015 年之前的方法都是迴歸出精確的關節點座標( x,y ),採用這種方法不好的原因是人體運動靈活,模型可擴充套件性較差。本文主要是2015年之後人體姿態識別的發展綜述。(1)遮擋問題,這個問題恐怕是最難的,也是必須要解決的(2)速度過慢。(3)僅僅有二位的姿態是不夠的,目前也有這一類的研究,關於直接從2d到3d的姿態進行直接估計。這一點是未來發展的趨勢。
單人姿態估計效能評價指標:MPII單人資料集,LSP資料集和FLIC資料集。通過對比這三個資料集的PCK值來評價模型好壞。評價指標為PCK(Percentage of Correct Keypoints)即關鍵點正確估計的比例,計算檢測的關鍵點與其對應的groundtruth 間的歸一化距離小於設定閾值的比例,FLIC中是以軀幹直徑作為歸一化參考,MPII中是以頭部長度作為歸一化參考,即PCKh。目前MPII單人資料集的排名如下:
發展歷程:
《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015
2015 年 flow convnet 將姿態估計看作是檢測問題,輸出是 heatmap。用相對於AlexNet更深的CNN網路進行人體姿態估計,提高關節點定位的魯棒性,利用temporal提高精度。其創新點在於從卷積神經網路的 3 和 7 層提取出來,再經過卷積操作,稱之為空間融合模型,用來提取關節點之間的內在聯絡;同時使用光流資訊,用來對準相鄰幀的 heatmap 預測。最後使用引數池化層,將對齊的heatmap 合併成一個 scoremap(置信圖)。
網路pipeline:對於當前幀t,輸入它的相鄰的前後n幀。利用全卷積神經網路(Spatial Net + Spatial Fusion Layers)對每一幀輸出一個預測的heatmap。再利用光流資訊將這些heatmap扭曲到當前幀t。之後將warped的heatmap合併到另一個卷積層中,該層學習如何權衡來自附近框架的扭曲的heatmap。最後使用集合熱圖的最大值作為人體的身體關節。
評測資料集:FLIC資料集,對於wrist(手腕)和elbow(肘部)的平均PCK可以達到92%,可以做到實時性,速度為5fps。但是該方法對於pose的估計範圍有限,只是半身的關節點,並不是全身的身體骨骼點。
《Convolutional Pose Machines》CVPR 2016[21]
2016 年提出的 CPM 方法具有很強的魯棒性,之後的很多方法是基於此改進的。CPM 的貢獻在於使用順序化的卷積架構來表達空間資訊和紋理資訊。網路分為多個階段,每一個階段都有監督訓練的部分。前面的階段使用原始圖片作為輸入,後面階段使用之前階段的特徵圖作為輸入,主要是為了融合空間資訊,紋理資訊和中心約束。另外,對同一個卷積架構同時使用多個尺度處理輸入的特徵和響應,既能保證精度,又考慮了各部件之間的遠近距離關係。
網路輸入彩色影象(綠色ori image)。以半身模型為例,分為四個階段(stage)。每個階段都能輸出各個部件的響應圖(藍色score),使用時以最後一個階段的響應圖輸出為準。center map(綠色)是一個提前生成的高斯函式模板,用來把響應歸攏到影象中心。 第一階段是一個基本的卷積網路1(白色convs),從彩色影象直接預測每個部件的響應。半身模型有9個部件,另外包含一個背景響應,共10層響應圖。第二階段也是從彩色影象預測各部件響應,但是在卷積層中段多了一個串聯層(紅色concat),把以下三個資料合一:
階段性的卷積結果(46*46*32)→ →\to 紋理特徵 , 前一階段各部件響應(46*46*10)→ →\to 空間特徵 ,中心約束(46*46*1) ,串聯後的結果尺寸不變,深度變為32+10+1 = 43。第三階段不再使用原始影象為輸入,而是從第二階段的中途取出一個深度為128的特徵圖(feature image)作為輸入。同樣使用串聯層綜合三種因素:紋理特徵+空間特徵+中心約束。 第四階段結構和第三階段完全相同。在設計更復雜的網路時(例如全身模型),只需調整部件數量(從10變為15),並重復第三階段結構即可。
該論文的主要訓練細節有三:
1. 資料增強:對原始圖片進行隨機縮放,旋轉,映象
2. 標定:在每個關節點的位置放置一個高斯響應,來構造響應圖的真值。對於含有多個人的影象,生成兩種真值響應,一是在每個人的相應關節位置,放置高斯響應。二是隻在標定的人的相應關節位置,放置高斯響應。
3. 中繼監督,多個loss:如果直接對整個網路進行梯度下降,則輸出層在經過多層反向傳播會大幅度的減小,解決方法就是在每個階段都輸出一個loss,可保證底層引數正常更新。
評測資料集:MPII,LSP,FLIC,在MPII資料集上的total PCKh是87.95%(如果加上LSP資料集作為訓練,將達到88.52%),在LSP資料集上的PCKh是84.32%(如果加上MPII資料集作為訓練,將達到90.5%),在FLIC資料集上的[email protected]分別是elbows(97.59%),wrist(95.03%)。速度不明,應該無法做到實時。
《Stacked Hourglass Networks for Human Pose Estimation》ECCV 2016[26]
本文使用全卷積網路解決人體姿態分析問題,截至2016年5月,在MPII姿態分析競賽中暫列榜首,PCKh(誤差小於一半頭高的樣本比例)達到89.4%。與排名第二的CPM(Convolutiona Pose Machine)1方法相比,思路更明晰,網路更簡潔。該論文體現了從模組到網路再到完整網路的設計思想。
使用的初級模組稱為Residual Module,得名於其中的旁路相加結構。參考文獻[6]有詳細介紹
作用:Residual模組提取了較高層次的特徵(卷積路),同時保留了原有層次的資訊(跳級路)。不改變資料尺寸,只改變資料深度。可以把它看做一個保尺寸的高階“卷積”層。
上下兩個半路都包含若干Residual模組(淺綠),逐步提取更深層次特徵。但上半路在原尺度進行,下半路經歷了先降取樣(紅色/2)再升取樣(紅色*2)的過程。
降取樣使用max pooling,升取樣使用最近鄰插值。n階Hourglass子網路提取了從原始尺度到1/2 n 1/2n1/2^n尺度的特徵。不改變資料尺寸,只改變資料深度。
以一個Hourglass(深綠色)為中心,可以從彩色影象預測K個人體部件的響應圖。原始影象經過一次降取樣(橙色),輸入到Hourglass子網路中。Hourglass的輸出結果經過兩個線性模組(灰色),得到最終響應圖。期間使用Residual模組(淺綠)和卷積層(白色)逐步提取特徵。而本文用的是以兩個Hourglass(深綠色)為中心的二級網路。二級網路重複了一級網路的後半結構。第二個Hourglass的輸入包含三路: 第一個Hourglass的輸入資料 ,第一個Hourglass的輸出資料 ,第一級預測結果 。這三路資料通過串接(concat)和相加進行融合,它們的尺度不同,體現了當下流行的跳級結構思想。如下圖所示:
總結起來SHN的方法值得學習的地方有四點:使用模組進行網路設計 ,先降取樣,再升取樣的全卷積結構 , 跳級結構輔助升取樣 ,中繼監督訓練。
評測資料集:在FLIC資料集上的[email protected]分別elbows(99%),elbows(97%); 不同的方法在MPII資料集的PCKh值,其中[1]為flow convnet,[5]為CPM。
Structured Feature Learning for Pose Estimation CVPR 2016[32]
2017 年王曉剛組的 structured pose 也是在 CNN 的基礎上進行微調,其創新點在於在卷積層使用幾何變換核,能夠對關節點之間的依賴關係進行建模,此外還提出了雙向樹模型,這樣每個關節的 feature channel 都可以接收其他關節的資訊,稱之為資訊傳遞,這種樹狀結構還能針對多人進行姿態估計。但是這種多人姿態估計的準確度不高,方法還是基於單人的比較好。
評測資料集:FCIL,LSP,MPII,在 FCIL,LSP均比之前的方法有所提升,在MPII資料集上也曾暫列榜首,PCKh達到91.5%,準確率提升不大。
Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation [33]
採用的GAN的方法,效果比之前的state-of-the-art僅僅提升了零點幾個百分點。基本上到hourglass之後的方法都是一些微調,雖然理論都不太一樣,但是準確度提升不大。
Learning Feature Pyramids for Human Pose Estimation[27]
模式識別的方法,pictorial structures以及loopy 結構,這些方法都是基於HOG 特徵。後來是神經網路,最早的是deepPose,是使用迴歸座標點的方法。座標點難以訓練學習,後來的方法都是將點做了高斯轉換得到score map。同時,還會用到多尺度獲得豐富特徵。
多尺度特徵Hourglass無疑是最成功的。但後面的多種網路結構對這這一基礎網路做了調整和優化,有更好的效果。比如這篇,將使用金字塔模型。不是普通的金字塔,而是組合了residual模型和Inception的金字塔,所以計算要求不高。
論文 |
Head |
Shoulder |
Elbow |
Wrist |
Hip |
Knee |
Ankle |
Total |
[1] |
96.1 |
91.9 |
83.9 |
77.8 |
80.9 |
72.3 |
64.8 |
82.0 |
[2] |
95.7 |
91.7 |
81.7 |
72.4 |
82.8 |
73.2 |
66.4 |
81.3 |
[3] |
94.1 |
90.2 |
83.4 |
77.3 |
82.6 |
75.7 |
68.6 |
82.4 |
[4] |
95.0 |
91.6 |
83.0 |
76.6 |
81.9 |
74.5 |
69.5 |
82.4 |
[5] |
97.8 |
95.0 |
88.7 |
84.0 |
88.4 |
82.8 |
79.4 |
88.5 |
[6] |
98.2 |
96.3 |
91.2 |
87.1 |
90.1 |
87.4 |
83.6 |
90.9 |
[27] |
98.5 |
96.7 |
92.5 |
88.7 |
91.1 |
88.6 |
86.0 |
92.0 |
截止到目前,[33][34]將準確率刷到了0.921,0.923,單人姿態估計研究基本上趨於飽和,都在刷準確率,而且單人姿態估計對於檢測多人效果不佳,人體姿態估計應用應該著力於多人姿態的研究。
四,多人姿態估計
單人姿態估計方法在單人識別效果較好,應用於多人姿態識別還是效果比較差 的。同樣多人姿態估計效果較好的應用於單人姿態估計的效果不理想。多人姿態估計有兩種主流的研究方法,自頂向下(top-down),先檢測出多個人,再對每個人進行姿態估計,可以將detection的方法加上單人姿態估計來實現;自底向上(bottom-up):先檢測出關節點,再判斷每一個關節點屬於哪一個人。評價多人姿態效能好壞兩大資料集:MPII Multi-Person Dataset[31]和MSCOCO Keypoints Challenge[30]。人體的識別要忍受來自定位和識別的雙重誤差,這是人體姿態識別需要研究和解決的問題。
發展歷程
《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》 CVPR 2016[18]
《DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model》 ECCV 2016[6]
2016 年的 deepcut,採用自頂向下的方法,先用 CNN 找出所有候選的關節點,將這些關節點組成一幅圖,對圖中的節點進行聚類,從而判斷各個節點屬於哪一個人,這是一個優化問題;同時,對各個點進行標記,分類屬於身體的哪一部分;兩者結合輸出姿態估計結果。
Deepercut 是在 deepcut 的基礎上使用 resnet 進行檢測提高精度,使用 image conditioned pairwise ,能夠將豐富的候選節點進行壓縮,提升速度和魯棒性。
評測資料集:deepcut,對於單人姿態估計,在LSP資料集上的PCK達到87.1%,在MPII資料集上的PCK達到82.4%(可見,適用於多人的姿態估計方法和純粹的單人姿態估計方法的準確率還有所差距);對於多人姿態估計,在WAF資料集上mean PCP達到84.7%,在MPII多人資料集上AP 達到 60.5%,速度非常慢。
DeeperCut:和deepcut的評測資料集相同,這裡主要針對多人來看,其準確率和速度都有所提升,尤其是速度方面。
《ArtTrack: Articulated Multi-person Tracking in the Wild》CVPR 2017[10]
2017年的ArtTrack的作者也是DeeperCut 的第一作者,是將人物姿態估計用到了視訊跟蹤裡面,本文的貢獻是利用現有的單幀姿態估計模型作為基礎框架,但是速度卻明顯加快,這種加快主要通過以下兩種方式來進行:(1)通過簡化和稀疏身體部位的關係圖,使用進來的方法進行快速的推理;(2)不載入用於前饋神經網路上的大規模計算量,這些神經網路是為了檢測和關聯同一人的身體關節。模型仍然是採用 top-down 的方法,即先用 Resnet 檢測出body part proposal,然後再根據關聯和空間資訊將他們歸為不同的人。
同時,本文也提出一種 top-down/bottom-up 的模型,即 top-down 部分是用來對人體做一個粗略的估計,之後再用bottom-up 進行精確調整,使得預測的關節點位置更準確。
評測資料集:WAF資料集和MPII Video Pose資料集,相應有所提升。
《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》CVPR 2017[9]
2017 年的 Part Affinity Fields(PAF)能夠針對多人做到實時檢測,它採用的卻是自底向上的方法,網路框架分為兩路;一路使用 CNN,根據置信圖進行關節點預測,另一路使用CNN 獲得每個關節點的 PAF,PAF 可以看作是記錄 limb 位置和方向的 2D 向量。兩路進行聯合學習和預測。最後就是如何將這些節點兩兩連線不重複,這轉換為圖論問題。
評測資料集:COCO 2016關鍵點檢測資料集+MPII multi-person benchmark。對於MPII多人pose,本文無論是準確度還是精度上都有質的飛躍,其相比於DeeperCut的速度快了4萬多倍,準確度也有幾個百分點的提升。可以做到實時,每幀只需要50毫秒,即20FPS。
《Mask R-CNN》ICCV 2017,FAIR,Kaiming He[13]
2017年何凱明的Mask R-CNN,Mask R-CNN 是用於目標檢測分割的框架,即對一張圖片,既輸出圖片中已有的目標,還能為每一個例項生成一個高質量的分割掩碼。mask RCNN是在 faster R-CNN 的基礎上,在每一個 RoI 都增加一個預測分割的mask,這和分類以及 bounding box 迴歸是並行的一條分支。它的訓練簡單,僅僅比 faster RCNN多一點計算開銷。它易於泛化到多個任務上,例如人體姿態估計。在不加任何的 trick的情況下,在COCO 資料集上超越其他的方法。因此準確度方面基本上已經是state-of-the-Art。
應用到pose estimation,將分割系統中的目標改為K個one-hot,m*m的二進位制mask。準確率比COCO 2016 冠軍高0.9個點,速度達到5 FPS。
《Towards accurate multi-person pose estimation in the wild》CVPR 2017 Google[11]
Google的人體姿態估計,多數時候在論文中簡寫為G-RMI。
論文采用top-down的結構,分為兩個階段: 第一階段使用faster rcnn做detection,檢測出圖片中的多個人,並對bounding box進行image crop; 第二階段採用fully convolutional resnet對每一個bonding box中的人物預測dense heatmap和offset; 最後通過heatmap和offset的融合得到關鍵點的精確定位。
《Associative Embedding:End-to-End Learning for Joint Detection and Grouping》[10]
論文提出了一種single-stage,end-to-end的關節點檢測和分組方法,這不同於以往的multi-stage的關節點檢測方法,在MPII和COCO資料集上達到新的state-of-the-art的效果,超越最近的Mask RCNN和Google GMI。從人體姿態估計方法上屬於bottom-up的方法,即先檢測關節點,再對關節點進行分組。在COCO測試集上mAP達到0.655。
《RMPE: Regional Multi-Person Pose Estimation》ICCV 2017,SJTU,Tencent Youtu[30]
文章的寫作背景是單人姿態估計的方法不能用在多人上面,而多人姿態估計方法雖然效果不錯,但是太慢了(485 seconds per image)。它對於多人姿態估計的方法採用傳統的自頂向下的方法,即先檢測人,再識別人體姿態。檢測使用的是SSD-512,識別人體姿態使用的是state-of-the-art的Stacked Hourglass方法。致力於解決對於imperfect proposal,通過調整,使得crop的單人能夠被單人姿態估計方法很好的識別,從而克服檢測帶來的定位誤差。
目前的人體檢測方法會產生兩個主要問題:定位錯誤,以及多餘的檢測結果,尤其是SPPE (singal person pose estimation)。這篇文章就是為解決這個問題而來的,提出了RMPE方法。包括了三個模組:Symmetric Spatial Transformer Network (SSTN)用於在不準確的bounding box下仍能提取準確的單個人的範圍,這是組合到SPPE裡面的。NMS是處理多餘的候選框的,它是採用了新的距離量測的方法來計算姿態的相似度,且是資料驅動的,不是預先設定的。PGPG用於增多訓練樣本。
整體框架
Symmetric STN + SPPE
Residual Module
論文 |
Head |
Shoulder |
Elbow |
Wrist |
Hip |
Knee |
Ankle |
Total |
[5] |
58.4 |
53.9 |
44.5 |
35.0 |
42.2 |
36.7 |
31.1 |
43.1 |
[6] |
78.4 |
72.5 |
60.2 |
51.0 |
57.2 |
52.0 |
45.4 |
59.5 |
[7] |
89.8 |
85.2 |
71.8 |
59.6 |
71.1 |
63.0 |
53.5 |
70.6 |
[8] |
88.8 |
87.0 |
75.9 |
64.9 |
74.2 |
68.8 |
60.5 |
74.3 |
[9] |
91.2 |
87.6 |
77.7 |
66.8 |
75.4 |
68.9 |
61.7 |
75.6 |
[10] |
92.1 |
89.3 |
78.9 |
69.8 |
76.2 |
71.6 |
64.7 |
77.5 |
[30] |
91.3 |
90.5 |
84.0 |
76.4 |
80.3 |
79.9 |
72.4 |
82.1 |
論文 |
AP |
AP(50) |
AP(75) |
AP(M) |
AP(L) |
[9] |
61.8 |
84.9 |
67.5 |
57.1 |
68.2 |
[11] |
68.5 |
87.1 |
75.5 |
65.8 |
73.3 |
[13] |
63.1 |
87.3 |
68.7 |
57.8 |
71.4 |
[12] |
72.1 |
91.4 |
80.0 |
68.7 |
77.2 |
[30] |
72.3 |
89.2 |
79.1 |
68.0 |
78.6 |
參考文獻
- Tompson,J.,J.,Jain,A.,LeCun,Y.,Bregler,C.:Efficient object localization using convolutional network. In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR) ,2015,648-656.
- Carreira, J.,Agrawal,P.,Fragkiadaki,K.,Mailk,J.:Human pose estimation with iterative error feedback.In CVPR,2016.
- Hu,P.,Ramanan,D.:Bottom-up and top-down reasoning with hierarchical rectified gaussians.In CVPR,2016
- He, Kaiming, et al. “Deep Residual Learning for Image Recognition.” arXiv preprint arXiv:1512.03385 (2015).
- J. G. Umar Iqbal. Multi-person pose estimation with local joint-to-person associations. In European Conference on Computer Vision Workshops 2016 (ECCVW’16) - Workshop on Crowd Understanding (CUW’16), 2016. 4322, 4327
- E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka,and B. Schiele. DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model. In European Conference on Computer Vision (ECCV), May 2016. 4321, 4322,4327
- S. T. M. O. E. I. A. K. C. R. T. B. B. S. B. A.Evgeny Levinkov, Jonas Uhrig. Joint graph decomposition and node labeling: Problem, algorithms, applications. In IEEE Conference on Computer Vision and Pattern Recog?nition (CVPR), 2017. 4327
- E. Insafutdinov, M. Andriluka, L. Pishchulin, S. Tang, E. Levinkov, B. Andres, and B. Schiele. Arttrack: Articulated multi-person tracking in the wild. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
- Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2017. 4327, 4328
- A. Newell, Z. Huang, and J. Deng. Associative embedding:End-to-end learning for joint detection and grouping. In Advances in Neural Information Processing Systems, pages 2274–2284, 2017. 4327
- G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multiperson pose estimation in the wild. arXiv preprint arXiv:1701.01779, 8, 2017. 4328
- Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun.Cascaded pyramid network for multi-person pose estimation.arXiv preprint arXiv:1711.07319, 2017. 4326, 4328
- K. He, G. Gkioxari, P. Doll′ar, and R. Girshick. Mask r-cnn.In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2980–2988. IEEE, 2017. 4328
- ] L. Pishchulin, M. Andriluka, P. Gehler, and B. Schiele.Strong appearance and expressive spatial models for human pose estimation. In ICCV, 2013. 7
- J. Tompson, A. Jain, Y. LeCun, and C. Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In NIPS, 2014. 1, 7
- J. Carreira, P. Agrawal, K. Fragkiadaki, and J. Malik. Human pose estimation with iterative error feedback. In CVPR,2016. 7
- L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. V. Gehler, and B. Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. In CVPR, 2016. 1, 7
- I. Lifshitz, E. Fetaya, and S. Ullman. Human pose estimation using deep consensus voting. In ECCV, 2016. 7
- G. Gkioxari, A. Toshev, and N. Jaitly. Chained predictions using convolutional neural networks. In ECCV, 2016. 7
- U. Rafi, J. Gall, and B. Leibe. An efficient convolutional network for human pose estimation. In ECCV, 2016. 7
- S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016. 1, 2, 7
- A. Bulat and G. Tzimiropoulos. Human pose estimation via convolutional part heatmap regression. In ECCV, 2016. 2, 7
- V. Belagiannis and A. Zisserman. Recurrent human pose estimation. FG, 2017. 2, 7
- ] MSCOCO keypoint challenge 2016. http://mscoco.org/dataset/keypoints-challenge2016. 4326
- M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2d human pose estimation: New benchmark and state of the art analysis. In IEEE Conference on Computer Vision and Pat?tern Recognition (CVPR), 2014. 4321, 4325, 4326
- A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV. Springer, 2016.1, 2, 3, 4, 7
- Yang, W., Li, S., Ouyang, W., Li, H., Wang, X.: Learning feature pyramids for human pose estimation. In: The IEEE International Conference on Computer Vision. (2017) 1290–1299
- ] J. G. Umar Iqbal. Multi-person pose estimation with local joint-to-person associations. In European Conference on Computer Vision Workshops 2016 (ECCVW’16) - Workshop on Crowd Understanding (CUW’16), 2016. 4322, 4327
- E. Insafutdinov, L. Pishchulin, B. Andres, M. Andriluka,and B. Schiele. DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model. In European Confer?ence on Computer Vision (ECCV), May 2016. 4321, 4322,4327
- H.-S. Fang, S. Xie, Y.-W. Tai, and C. Lu. RMPE: Regional multi-person pose estimation. In ICCV, 2017.
- A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. In CVPR, 2014. 1, 2
- X. Chu, W. Ouyang, H. Li, and X. Wang. Structured feature learning for pose estimation. In CVPR, 2016. 2
- Chen,Y.,Shen,C.H.,Wei,X,S.,Liu,L.Q.,Yang,J.Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation
- Lipeng Ke, Ming-Ching Chang, Honggang Qi, Siwei Lyu; The European Conference on Computer Vision (ECCV), 2018, pp. 713-728 Multi-Scale Structure-Aware Network for Human Pose EstimationWei Tang, Pei Yu, Ying Wu; The European Conference on Computer Vision (ECCV), 2018, pp. 190-206 Deeply Learned Compositional Models for Human Pose Estimation
一,人體姿態識別資料集