HRNetv1: Deep High-Resolution Representation Learning for Human Pose Estimation [1902.09212v1] - 論文研讀系列(5) 個人筆記

阿新 • • 發佈：2022-04-21

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation[1902.09212v1]

論文題目：Deep High-Resolution Representation Learning for Human Pose Estimation
論文地址：http://arxiv.org/abs/1902.09212v1
程式碼：https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
CVPR2021

1、摘要簡介

本文聚焦於人類姿態估計，現有方法大都是連線一個高解析度到低解析度卷積序列的子網路，將輸入影象下采樣為低解析度表示，然後再從編碼的低解析度表示中恢復高解析度表示（一般利用空洞卷積）。本文相反保留高解析度，從一個高解析度的子網作為第一階段開始，逐步將高解析度到低解析度的子網逐個新增，形成更多的階段，並將多解析度並行連線進行多次多尺度融合，使得預測的關鍵點熱圖更加準確。兩個好處：
- 1、並行連線多解析度子網路，不是串聯的高到低到高
- 2、大多數融合方案是聚合了低階和高階表示，本文通過重複的多尺度融合，在相同深度和相似級別的低解析度表示幫助下提高高解析度表示，反之亦然，從而使得高解析度表示也有豐富的姿勢估計。
本文針對於單人姿態估計，這是其他相關姿態估計如多人/視訊/跟蹤等問題的基礎。在PoseTrack資料集[1]上同樣展示了該網路在視訊姿勢跟蹤方面的優勢。

2、相關工作

單人姿勢估計一般為兩種主流方法：【迴歸關鍵點的位置】和【估算關鍵點熱圖，熱值最高的位置作為關鍵點】
High-to-low and low-to-high：高到低到高的過程旨在生成低解析度和高解析度表示（低升高採用空洞卷積以消除空間解析度損失）
- (a) Hourglass沙漏狀網路 (b) 級聯金字塔網路 (c) SimpleBaseline 低到高過程的轉置卷積 (d) 空洞卷積
- 在a中上下采樣過程對稱，在bcd中，分類網路(ResNet / VGGNet)的一部分從高到低的過程是heavy，低到高是light，ab中相同解析度層之間的虛線主要用於融合低級別和高級別特徵，在b中右邊的refinenet結合了通過卷積處理的低階和高階特徵。
Multi-scale fusion：
- 簡單如a及其擴充套件，通過skip connection聚合輸出。
- b中全域性網路產生多解析度，細化網路通過卷積處理組合各解析度特徵
- 本文采用重複多尺度融合，想法來自deep fusion
  
  深度融合及其擴充套件。

3、

輸入H*W*3影象，輸出H'*W',{H1,H2..,Hk}k個關鍵點熱圖，Hk表示第k個關鍵點的位置置信度。莖部網路由兩個下采樣的跨步卷積組成，主體網路以輸入相同的解析度輸出特徵圖，以及一個迴歸器用於估計選擇關鍵點位置並轉換為全解析度的熱圖。
順序多解析度子網路：
- \(N_{sr}\)，s表示階段數，r表示解析度索引（對應的解析度為第一層的\(\frac{1}{2^{r-1}}\)大小），從高到低S階段(eg.4)。
並行多解析度子網路：
- 從高解析度子網作為第一階段開始，逐步將高解析度新增到低解析度子網中並形成新的階段，同時將其並行連線。因此，後一階段並行子網的解析度由前一階段的解析度和一個較低解析度組成。(eg.4)
重複多尺度融合：
- 在並行子網中引入交換單元，使得各子網重複從其他並行子網中接受資訊。(eg.3)比如將第三階段劃分為（例如3個）幾個交換塊，每個塊由3個並行卷積單元組成，每個並行單元之間有一個交換單元：
- \(C^{b}_{sr}\)表示\(C_{sr}\)的第b個交換塊中的並行卷積單元，\(ε^{b}_{s}\)則是相應的交換單元，如圖是三個交換塊構造。
交換公式：省略s和r，輸出的解析度[Y1,Y2..,Ys]與寬度和輸入[X1,X2..,Xs]相同，每個輸出都是輸入對映的合集，
。跨階段的交換單元有一個額外的輸出對映：。
- a(Xi,k)表示上取樣或者下采樣Xi從解析度i到解析度k；如果i=k，則a(Xi,k)=Xi。
- 採用3x3卷積進行下采樣，例如步長=2兩倍下采樣，兩次連續步長=2四倍下采樣；上取樣則使用1x1卷積後的簡單最近鄰取樣來對齊通道數
- 簡單來說就是這樣，上圖融合三解析度的例子；最後一層還有一個額外的輸出：
- 這些個f就是一系列操作，也就是圖中所示的卷積上取樣等操作。對高解析度到低解析度，低解析度到高解析度，同分辨率到同分辨率，操作均不同，具體可見上圖。
熱圖估計：
- 簡單的用最後一個交換單元輸出的高解析度表示迴歸熱圖，損失函式用均方差。
HRNet：
- 包含四個階段，四個平行的子網路，其解析度逐漸降低到一半，因此寬度（通道數）增加到兩倍。第一階段包含四個殘差單元（ResNet50相同），第234階段包含1、4、3個交換塊，每一個交換塊裡包含4個殘差單元，每個單元包含兩個3x3卷積在每種解析度上，每個解析度中還有一個交換單元，因此一共有8個交換單元，即進行了8次多尺度融合。
HRNet32和HRNet48，32和48表示最後三個階段的高解析度自網路的寬度（C），對於32而言其他三個並行子網的寬度為64，128，256。

4、實驗結果

5、總結

HRNetv1: Deep High-Resolution Representation Learning for Human Pose Estimation [1902.09212v1] - 論文研讀系列(5) 個人筆記

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation[1902.09212v1] 論文題目：Deep High-Resolution Representation Learning for Human Pose Estimation

行人重識別綜述：《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 - 論文研讀系列(4) 個人筆記

行人重識別綜述：《Deep Learning for Person Re-identification: A Survey and Outlook》 2021 貢獻點：

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss [2204.06806] - 論文研讀系列(6) 個人筆記

YOLO-Pose: Enhancing YOLO for Multi Person Pose Estimation Using Object Keypoint Similarity Loss [2204.06806]

Simple Baselines for Human Pose Estimation程式碼閱讀

simple baseline是coco2017人體關鍵點檢測亞軍，他的程式碼是微軟提供的，在python沒有類似於springboot等框架的時候，python的程式碼經常會寫的五花八門。作為一個剛入門的小白，通過學習這種規範化的程式

Scalable Rule-Based Representation Learning for Interpretable Classification

目錄概主要內容 Wang Z., Zhang W., Liu N. and Wang J. Scalable rule-based representation learning for interpretable classification. In Advances in Neural Information Processing Systems (NIPS), 2021.

【ICRA 2021】【簡讀】論文閱讀： Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video

論文地址：https://arxiv.org/abs/2003.14179 Github: https://github.com/fabro66/GAST-Net-3DPoseEstimation

【CVPR 2022】論文閱讀：MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation

論文地址：https://arxiv.org/pdf/2111.12707.pdf Github：https://github.com/Vegetebird/MHFormer 單位：北大深圳研究生院、蘇黎世聯邦理工學院、阿里巴巴

《The Design of a Practical System for Fault-Tolerant Virtual Machines》論文研讀

VM-FT 論文研讀說明：本文為論文《The Design of a Practical System for Fault-Tolerant Virtual Machines》的個人理解，難免有理解不到位之處，歡迎交流與指正。

【論文閱讀筆記】How Robust is 3D Human Pose Estimation to Occlusion?

論文地址：https://arxiv.org/abs/1808.09316 論文總結本文主要在生成遮擋策略的方向上進行實驗，得到實驗結果和對比。但由於當時的精度不是特別高，所以其中的一些結論現如今不一定完全適用。

論文閱讀：3D human pose estimation in video with temporal convolutions and semi-supervised training

2019 CVPR的文章，使用時序卷積和半監督訓練的3D人體姿態估計論文連結：https://arxiv.org/abs/1811.11742

【ICCV 2021】論文閱讀：3D Human Pose Estimation with Spatial and Temporal Transformers

ICCV2021 的一篇文章，一開始的感覺是在之前CVPR 2019上的VideoPose3D基礎上做的一些工作，主要是把最近兩年很火的vision Transformer加到了上面。

【CVPR 2022】論文閱讀：PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and Hallucination under Self-supervision

論文地址：https://arxiv.org/pdf/2203.15625.pdf Github：https://github.com/Garfield-kh/PoseTriplet

【論文閱讀】Deep learning-based facial emotion recognition for human–computer interaction applications

這篇文章標題雖然包含了人機互動，但是對人機互動部分進行過多描述 1.這篇文章究竟講了什麼問題？

【論文筆記】A Survey on Deep Learning for Named Entity Recognition

本筆記理出來綜述中的點，並將大體的論文都列出，方便日後調研使用查詢，詳細可以看論文。

無監督學習 MoCo: Momentum Contrast for Unsupervised Visual Representation Learning

用於視覺表示學習的動量對比。作者：Kaiming He 以及FAIR的一眾大佬 Summary 這篇文章主要解決的是無監督視覺表示學習問題。作者從將對比學習看做字典查詢（dictionary look-up）出發，使用佇列（queue）和

Deep Residual Learning for Image Recognition 筆記

轉載於部落格 http://blog.csdn.net/cv_family_z/article/details/50328175 http://blog.csdn.net/u014114990/article/details/50505331

CS224d: Deep Learning for Natural Language Process

2019獨角獸企業重金招聘Python工程師標準>>> Course Description Teaching Assistants

論文閱讀筆記《Deep Active Learning for Civil Infrastructure Defect Detection and Classification》

小樣本學習&元學習經典論文整理||持續更新核心思想本文提出一種基於主動學習的民用設施缺陷檢測方法，其思路主要是考慮到在樣本較少的情況下，訓練得到的網路可能不能很好的對各種型別的缺陷都進

殘差網路：《Deep Residual Learning for Image Recognition》

殘差網路：《Deep Residual Learning for Image Recognition》摘要：網路結構深度的表達對視覺識別任務而言至關重要，論文提出了一種殘差網路結構塊，使得網路的準確度能夠隨著深度的加深而升高。網路結構

論文記載： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

強化學習論文記載論文名： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks （車輛網路交通訊號燈控制的深度強化學習）---年份：2018.3

HRNetv1: Deep High-Resolution Representation Learning for Human Pose Estimation [1902.09212v1] - 論文研讀系列(5) 個人筆記

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation[1902.09212v1]

1、摘要簡介

2、相關工作

3、

4、實驗結果

5、 總結

相關推薦

5、總結