姿態檢測整理--01-Stacked Hourglass Networks for Human Pose Estimation

阿新 • • 發佈：2019-02-01

Stacked Hourglass Networks for Human Pose Estimation（發表於2016年）

基本上是目前姿態研究的基礎網路，具有bottom-up和top-down二者特性。bottom-up是先得到肢體再歸併到不同個體。

姿態檢測的history：

人們開始從傳統方法[2-9]轉而研究深度神經網路在這方面的應用，是Toshev[24]成功應用神經網路估計人類姿態，他使用的方法是迴歸關節點座標（x,y)。Tompson[15]將熱點圖headtmap替代了迴歸的方法，同時使用不同尺度解析度逐漸獲取特徵。然後又到了Newell的stacked Hourglass，也是組合不同解析度所得特徵，也就是這篇文章嘍。

Hourglass和它之前的網路不同點說明：

Tompson的方法是使用CNN和圖形模式，圖形模式用來獲取關節點間的關係（繼續深挖/探究關節點間的聯絡的方法這也是很多人研究的方向[20,25,17]），比如，chen[25]使用聚類的方法。CNN和影象模式組合的方法是2015年的相關研究的經典基調。當然也有不同的方法，比如有：迭代的方法[19]，圖片先作為輸入，然後將預測結果作為輸入來微調網路。Wei[18]使用多個階段的提取結果。
在微調時，，Tompson等的研究使用短視訊cascade（這兒的cascade翻譯是錯誤的，讀過相關論文，這是級聯學習方法，是使用多階段訓練的方法提升精確度）的方式，Newell發現cascade幫助不大，錯誤更多是由於肢體被擋住或者識別錯誤，所以繼續在當前尺度下進行調整不能提高預測結果。

對Hourglass的細節說明：

對於單一的hourglass結構

Hourglass和fully convolutinal networks[23]以及其他網路[15,30,31,32,33,34,35,36,37,38]相似(在不同尺度下識別姿態，截至到目前2017年，較多用到的是Hourglass，FCN，ResNet)，但是結構特殊：同時包含了bottom-up（from high resolutions to low resolutions)和top-down (from low resolutions to high resolutions)。而且，整個網路有多個bottom-up和top-down過程。這樣設計的目的是在各個尺度下抓取資訊。[關於典型網路結構，xie[30]做了一個總結。全卷積網路和整體嵌入網路結構傾向與使用bottom-up，不太重視top-down。]

堆疊Hourglass結構之後：

Hourglass處理top-down過程時，不用unpooling或deconv層，而是使用最近鄰的上取樣以及使用跳躍連線方式skip connection（ResNet 結構）。
有人為了得到多尺度下的特徵，使用了多條分支[15,18]，Hourglass使用單處理流程線，但能達到多尺度獲取特徵的效果。最後，將不同解析度下的特徵聯絡起來，使用了Tompson的方法—對低解析度做最近鄰上取樣從而得到特徵的元素，最後得到的是熱度圖。

網路設計：

Hourglass使用了殘差網路，並且使用了googlenet中的分解大fliter的方法。
這裡寫圖片描述
Hourglass還會疊加這個結構，可以在多尺度下發現特徵。第一層結構可以發現區域性和整體的特徵，將這些特徵送入第二層結構之後，高層次特徵會得到更高層次特徵，高層次特徵在地解析度影象中出現。單層Hourglass可能會不能發現一些尺度下特徵與其他尺度下的關係，所以要用兩層這個結構。最後，loss是兩個結構用同一套ground truth進行計算。

訓練：

資料預處理：

用到了FLIC和MPII資料集。FLIC是電影截圖，給出上半身標註。MPII是生活照片，是多人圖片。
因為沒有預先輸入人體檢測的模型，訓練時需要將人放到圖片中間，以決定target person。FLIC是根據標註將人放到圖片中間。MPII是根據target person裁剪得到256×256的圖片，對於centering之後仍不清楚是否合適，需要做資料增強（需要指出，Hourglass 是處理單人姿態檢測）。

這個方法的簡單理解，可以參考到網路的視覺化，不過從準確性和資訊豐富角度，比視覺化多一個ResNet結構，而且是專用的一段網路。

姿態檢測整理--01-Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks for Human Pose Estimation（發表於2016年）基本上是目前姿態研究的基礎網路，具有bottom-up和top-down二者特性。bottom-up是先得到肢體再歸併到不同個體。

論文筆記 Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks for Human Pose Estimation key words:人體姿態估計 Human Pose Estimation 給定單張RGB影象，輸出人體某些關鍵點的精確畫素位置.堆疊式沙漏網路 Stacked Hourglass Net

Stacked Hourglass Networks for Human Pose Estimation

介紹這是一篇2016年做單人姿態估計的文章實驗用的是MPII sigle 和 FLIC ，指標PCKh 通過堆疊沙漏結構的網路進行人體姿態估計沙漏結構指通過pooling得到低解析度的特徵，然後通過上取樣得到高解析度特徵的網路結構論文指出該網路可以捕

Beyond Tree Structure Models: A New Occlusion Aware Graphical Model for Human Pose Estimation論文小摘

一、介紹這篇文章是2015年的ICCV的文章，當時還是非常流行使用“樹結構”以及“圖模型”來解決“姿態估計”問題的。這篇文章的核心內容是要去解決，姿態估計過程中面臨的一個挑戰“遮擋”問題。文章中將遮擋分為了兩類進行討論，第一類是自遮擋，第二類是其

Learning Feature Pyramids for Human Pose Estimation（理解）

0 - 背景　　人體姿態識別是計算機視覺的基礎的具有挑戰性的任務，其中對於身體部位的尺度變化性是存在的一個顯著挑戰。雖然金字塔方法廣泛應用於解決此類問題，但該方法還是沒有很好的被探索，我們設計了一個Pyramid Residual Module（PRMs）來提高DCNNs的尺度不變性。　　

Simple Baselines for Human Pose Estimation and Tracking

介紹微軟神作，pose track 的新base line 比ICCV Pose track 冠軍在mAP上高15個點，在MOTA上高6個點姿態估計一個簡單的ResNet 結構三個卷積層+BN+ReLU 中間一個1*1的卷積層產生pose的h

Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation翻譯

對抗性的PoseNet:一種對於人類姿態估計的結構感知的卷積網路摘要：在單目影象中，人的姿態估計，關節遮擋和重疊在人體上經常導致偏差的姿勢預測。在這種情況下，可能會產生生物學上難以置信的姿態預測。與此相反，人類視覺通過利用節點間連線的幾何約束來預測姿態。為了解決這一問題，

《Simple Baselines for Human Pose Estimation and Tracking》閱讀筆記

《Simple Baselines for Human Pose Estimation and Tracking》閱讀筆記《Simple Baselines for Human Pose Estimation and Tracking》閱讀筆記姿

論文閱讀 Multi-Scale Structure-Aware Network for Human Pose Estimation

1、文章在hourglass的網路基礎上做了四點改進 1）多尺度監督來加強語義特徵學習來融合多尺度的特徵 2）多尺度的迴歸網路來優化整體的人體結構 3）structure-aware損失（在多

論文解讀：Stacked Attention Networks for Image Question Answering

這是關於VQA問題的第二篇系列文章，這篇文章在vqa領域是一篇比較有影響的文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Stacked Attention Networks for Image Question Answering。原論文中附有作者原始碼。

目標檢測論文閱讀：Relation Networks for Object Detection

Relation Networks for Object Detection 論文連結：https://arxiv.org/abs/1711.11575 程式碼連結：暫無，尚不清楚是否會公開這個是CVPR 2018的文章，雖然並沒有什麼巧妙的設

【姿態估計】DeepPose: 基於深度神經網路的人體姿態估計 Human Pose Estimation via Deep Neural Networks

Alexander Toshev Christian Szegedy Google 1600 Amphitheatre Pkwy Mountain View, CA 94043 toshev,[e

DeepPose: Human Pose Estimation via Deep Neural Networks論文翻譯

翻譯點選連結獲取基本思想級聯網路架構：在第一階段將影象輸入後得到大致位置，在之後的階段利用相同的網路架構得到更精細的結果。對級聯的所有階段使用相同的網路架構，但學習不同的網路引數。其中網路架構使用的是Alex，所不同的是loss函式，AlexNet是用於分類的，而本文的架構是用於迴

人體姿態估計（Human Pose Estimation）---優質學習資源

目錄 0、簡介這是一個簡單的資源僅供參考，Just for Xiuyun-Mo 0、簡介姿態估計的目標是在RGB影象或視訊中描繪出人體的形狀，這是一種多方面任務，其中包含了目標檢測、姿

人體姿態估計(Human Pose Estimation)文獻綜述

一、研究背景維基百科對人體姿態估計的定義如下： Articulated body pose estimation in computer vision is the study of algorithms and systems that recover the pos

目標檢測“Feature Pyramid Networks for Object Detection”

為了在不同尺度檢測物體，特徵金字塔很重要。作者提出了一個具有橫向連線的自上而下的結構，來構造每個尺度的高層語義特組圖。這個結構成為特徵金字塔網路（FPB）。幾種不同的檢測結構對比，圖（a）是使用影象金字塔構造特徵金字塔，圖（b）只使用一個尺度的特徵進行快速檢

特徵金字塔特徵用於目標檢測：Feature Pyramid Networks for Object Detection

前言：這篇論文主要使用特徵金字塔網路來融合多層特徵，改進了CNN特徵提取。作者也在流行的Fast&Faster R-CNN上進行了實驗，在COCO資料集上測試的結果現在排名第一，其中隱含的說明了其在小目標檢測上取得了很大的進步。其實整體思想比較簡單，但是實驗部分

目標檢測--Feature Pyramid Networks for Object Detection

CVPR2017 Feature Pyramid Networks for Object Detection https://arxiv.org/abs/1612.03144 Code will be made publicly available 本

Deep Learning 8_深度學習UFLDL教程：Stacked Autocoders and Implement deep networks for digit classification_Exercise（斯坦福大學深度學習教程）

前言 2.實驗環境：win7， matlab2015b，16G記憶體，2T硬碟 3.實驗內容：Exercise: Implement deep networks for digit classification。利用深度網路完成MNIST手寫數字資料庫中手寫數字的識別。即：用6萬個已標註資料（即：6萬

目標檢測“Perceptual Generative Adversarial Networks for Small Object Detection”

解決小目標檢測問題的一般方法：提高輸入影象的解析度，會增加運算量；多尺度特徵表示，結果不可控。方法提出論文使用感知生成式對抗網路（Perceptual GAN）提高小物體檢測率，generator將小物體的poor表示轉換成super-resolved的

姿態檢測整理--01-Stacked Hourglass Networks for Human Pose Estimation

姿態檢測的history：

Hourglass和它之前的網路不同點說明：

對Hourglass的細節說明：

訓練：

相關推薦