1. 程式人生 > 其它 >HRNetv1: Deep High-Resolution Representation Learning for Human Pose Estimation [1902.09212v1] - 論文研讀系列(5) 個人筆記

HRNetv1: Deep High-Resolution Representation Learning for Human Pose Estimation [1902.09212v1] - 論文研讀系列(5) 個人筆記

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation[1902.09212v1]

1、摘要簡介

  • 本文聚焦於人類姿態估計,現有方法大都是連線一個高解析度到低解析度卷積序列的子網路,將輸入影象下采樣為低解析度表示,然後再從編碼的低解析度表示中恢復高解析度表示(一般利用空洞卷積)。本文相反保留高解析度,從一個高解析度的子網作為第一階段開始,逐步將高解析度到低解析度的子網逐個新增,形成更多的階段,並將多解析度並行連線進行多次多尺度融合,使得預測的關鍵點熱圖更加準確。兩個好處:

    • 1、並行連線多解析度子網路,不是串聯的高到低到高
    • 2、大多數融合方案是聚合了低階和高階表示,本文通過重複的多尺度融合,在相同深度和相似級別的低解析度表示幫助下提高高解析度表示,反之亦然,從而使得高解析度表示也有豐富的姿勢估計。
  • 本文針對於單人姿態估計,這是其他相關姿態估計如多人/視訊/跟蹤等問題的基礎。在PoseTrack資料集[1]上同樣展示了該網路在視訊姿勢跟蹤方面的優勢。

2、相關工作

  • 單人姿勢估計一般為兩種主流方法:【迴歸關鍵點的位置】 和 【估算關鍵點熱圖,熱值最高的位置作為關鍵點】

  • High-to-low and low-to-high:高到低到高的過程旨在生成低解析度和高解析度表示(低升高採用空洞卷積以消除空間解析度損失)

    • (a) Hourglass沙漏狀網路 (b) 級聯金字塔網路 (c) SimpleBaseline 低到高過程的轉置卷積 (d) 空洞卷積
    • 在a中上下采樣過程對稱,在bcd中,分類網路(ResNet / VGGNet)的一部分從高到低的過程是heavy,低到高是light,ab中相同解析度層之間的虛線主要用於融合低級別和高級別特徵,在b中右邊的refinenet結合了通過卷積處理的低階和高階特徵。
  • Multi-scale fusion

    • 簡單如a及其擴充套件,通過skip connection聚合輸出。
    • b中全域性網路產生多解析度,細化網路通過卷積處理組合各解析度特徵
    • 本文采用重複多尺度融合,想法來自deep fusion
      深度融合及其擴充套件。

3、

  • 輸入H*W*3影象,輸出H'*W',{H1,H2..,Hk}k個關鍵點熱圖,Hk表示第k個關鍵點的位置置信度。莖部網路由兩個下采樣的跨步卷積組成,主體網路以輸入相同的解析度輸出特徵圖,以及一個迴歸器用於估計選擇關鍵點位置並轉換為全解析度的熱圖。

  • 順序多解析度子網路:

    • \(N_{sr}\)s表示階段數,r表示解析度索引(對應的解析度為第一層的\(\frac{1}{2^{r-1}}\)大小),從高到低S階段(eg.4)

  • 並行多解析度子網路:

    • 從高解析度子網作為第一階段開始,逐步將高解析度新增到低解析度子網中並形成新的階段,同時將其並行連線。因此,後一階段並行子網的解析度由前一階段的解析度和一個較低解析度組成。(eg.4)
  • 重複多尺度融合:

    • 在並行子網中引入交換單元,使得各子網重複從其他並行子網中接受資訊。(eg.3)比如將第三階段劃分為(例如3個)幾個交換塊,每個塊由3個並行卷積單元組成,每個並行單元之間有一個交換單元:
    • \(C^{b}_{sr}\)表示\(C_{sr}\)的第b個交換塊中的並行卷積單元,\(ε^{b}_{s}\)則是相應的交換單元,如圖是三個交換塊構造。
  • 交換公式:省略s和r,輸出的解析度[Y1,Y2..,Ys]與寬度和輸入[X1,X2..,Xs]相同,每個輸出都是輸入對映的合集,
    。跨階段的交換單元有一個額外的輸出對映:。

    • a(Xi,k)表示上取樣或者下采樣Xi從解析度i到解析度k;如果i=k,則a(Xi,k)=Xi
    • 採用3x3卷積進行下采樣,例如步長=2兩倍下采樣,兩次連續步長=2四倍下采樣;上取樣則使用1x1卷積後的簡單最近鄰取樣來對齊通道數
    • 簡單來說就是這樣,上圖融合三解析度的例子;最後一層還有一個額外的輸出:
    • 這些個f就是一系列操作,也就是圖中所示的卷積上取樣等操作。對高解析度到低解析度,低解析度到高解析度,同分辨率到同分辨率,操作均不同,具體可見上圖。
  • 熱圖估計:

    • 簡單的用最後一個交換單元輸出的高解析度表示迴歸熱圖,損失函式用均方差。
  • HRNet:

    • 包含四個階段,四個平行的子網路,其解析度逐漸降低到一半,因此寬度(通道數)增加到兩倍。第一階段包含四個殘差單元(ResNet50相同),第234階段包含1、4、3個交換塊,每一個交換塊裡包含4個殘差單元,每個單元包含兩個3x3卷積在每種解析度上,每個解析度中還有一個交換單元,因此一共有8個交換單元,即進行了8次多尺度融合。
  • HRNet32和HRNet48,32和48表示最後三個階段的高解析度自網路的寬度(C),對於32而言其他三個並行子網的寬度為64,128,256。

4、實驗結果


5、 總結