1. 程式人生 > 實用技巧 >【論文筆記】Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks

【論文筆記】Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks

1. 論文題目
《Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks》
中文:通過輔助任務上自訓練的半監督人群計數
2. 作者以及研究單位
作者分別來自四川大學、阿德萊德大學、伍倫貢大學和大連理工大學。
3. 摘要
一兩句話概述全文。
本文從特徵學習的角度處理人群計數的半監督,只利用未標註資料訓練一個通用的特徵提取器而不是整個網路。
4. 簡介:(1)這篇論文針對什麼問題展開的研究(2)已有工作是如何解決這些問題的(已有工作存在什麼不足)(3)這篇論文是如何做的(如何彌足已有工作的不足)(4)這篇論文作者宣稱的幾個貢獻。


(1)本文針對人群計數任務中資料標註量大而繁瑣的問題展開研究。
(2) 針對人群計數的半監督問題,傳統的方法是對未標記資料生成一個偽標籤,然後監督整個網路的訓練。但是,在輸出和未標記資料之間構造一個半監督學習的損失比較困難,相比之下,學習一個特徵提取器未標記資料產生的噪聲監督更健壯也更具有魯棒性;特徵提取器在密度圖預測中起到比較重要的作用,如果有一個好的特徵提取器,才能更好地訓練密度圖迴歸器;學習特徵提取器的方法有很多中,甚至可以從其他任務中學習。
(3)本文提出,使用未標記資料學習人群計數的通用特徵提取器,而不是用偽標籤的方式訓練整個網路。
(4)本文貢獻:1、從一個新的特徵學習的角度來研究半監督人群計數問題,通過引入代理任務,將原問題轉化為一組半監督分割問題。2、開發了一種新的自訓練方法,充分利用多個二元分割任務之間的相互關係。
5. 相關工作:
相關工作包含三個方面:Traditional Crowd Counting Methods、CNN-based Crowd Counting Methods和Semi-/Weakly/Un-Supervised Crowd Counting Methods。
(1) Traditional Crowd Counting Methods:基於檢測的方法使用檢測器進行計數,對於及其擁擠的場景預測效果不佳。基於迴歸的方法能夠解決擁擠場景的問題,但是忽略了人群的空間分佈資訊,不能準確地預測總人數。
(2) CNN-based Crowd Counting Methods:利用基於CNN的方法迴歸密度圖,對密度圖求和得到總人數。
(3) Semi-/Weakly/Un-Supervised Crowd Counting Methods:半監督、弱監督、無監督等方法主要解決標註工作繁瑣的問題。[33]蒐集了大量的無標註資料作為額外訓練資料,並基於預測密度圖構建了一個rank loss;[34]使用總的count作為弱監督資訊;[35]提出一個自動編碼結構進行無監督訓練;還有的方法使用合成數據訓練模型,然後使用基於GAN的方法進行合成數據到真實資料之間的域適應。這些方法減少了資料標註的工作量,但是不能獲得比較好的計數效能,因為監督噪聲會誤導密度迴歸器。
6. 本文方法:(1)problem setting,或者 formulation,如何使用符號、公式化描述本文研究的問題(已知什麼,求解什麼)(2)本文方法的總體框圖(3)如何優化求解所提方法
標註資料: L = { I i l , D i } L=\{I_i^l,D_i\} L={Iil,Di};未標註資料: U = { I i u } U=\{I_i^u\} U={Iiu}

Using Unlabeled Data for Feature Learning:
一般來說,一個網路可以分為一個特徵提取器和一個特定任務的預測器。前者將原始影象轉換為特徵圖,後者進一步將他們轉化為期望輸出。現有的半監督方法同時學習這兩個部分,然後對未標記資料構造損失項。本文提出通過不同的任務和損失來學習特徵提取器和特定任務預測器。考慮到以下三個因素:
(1) 對未標記資料構建魯棒的半監督迴歸損失項比較具有挑戰性(也是目前半監督方法所面臨的問題),而且未標記資料的損失項帶來的監督噪聲可能會汙染特定任務的預測器,從而導致較差的效能;
(2) 特徵提取器在無監督學習、半監督學習和少樣本學習中都發揮著重要作用,一個好的特徵提取器能夠減少訓練中對大量標註資料的需求,在人群計數中,若能或得更魯棒的特徵提取器,則能減少註釋工作。
(3) 特徵提取器可以通過多種方式學習,這樣在設計用於特徵學習的半監督演算法時會有更高的自由度。一般是從原始密度圖迴歸問題中找替代任務,用於訓練特徵提取器。
所以,未標記資料只用於訓練特徵提取器。具體的示意圖如下所示:
在這裡插入圖片描述
Constructing Surrogate Tasks for Feature Learning:
本文將替代任務定義為:預測一個畫素點的密度值D(i,j)是否超出給定的閾值。數學公式表示為:
在這裡插入圖片描述
其中,(i,j)是畫素的座標,ϵ是預定義的閾值。對於標註資料,ground truth D是已知的,因此M是已知的。對於未標註資料,D和M都是未知的,但是仍然可以為它構造損失來監督M的預測。通過這種方式,實際上是將原始的半監督人群計數問題重鑄為半監督分割問題(M只取0和1)。
而在本文中,作者使用多個閾值並生成多個替代任務的target {Mk}來考慮具有不同密度級別的畫素。對於閾值的設定,作者把所有標註影象的非零密度值升序排序,將這些閾值選擇為排序為r_k×N處的值,其中r_k∈[0,1] k=1,…,c,N是非零值的總數,c是替代任務的數量。同時,建立多個附加到特徵提取器的分割預測分支,這些分割預測分支是和密度迴歸器並列的,如下圖所示:
在這裡插入圖片描述
Inter-Relationship-Aware Self-Training (IRAST) for Semi-supervised Training on Surrogate Tasks:
生成第k個Seg Predictor偽標籤的規則:假設有c個Predictor,根據閾值的降序進行排序,使用演算法1生成偽標籤:
在這裡插入圖片描述

在這裡插入圖片描述
在這裡插入圖片描述
對於有衝突的畫素點,偽標籤中設定為無效畫素,其餘有效畫素的偽標籤均為0或1。
Loss Function:
標註資料:密度圖估計任務中的MSE損失+c個輔助任務的交叉熵損失
在這裡插入圖片描述
未標記資料:c個輔助任務的交叉熵損失
在這裡插入圖片描述
7. 實驗驗證:(1)資料集(2)實驗設定,evaluation protocol(3)實驗方案,從幾個方面進行論證實驗的有效性,baseline如何選擇,sota方法有哪些,有哪些需要設計的消融實驗,能不能視覺化分析
(1)資料集:ShanghaiTech、UCF-QNRF、WorldExpo’10
(2)實驗設定:特徵提取器使用CSRNet,預設使用三個輔助分割任務,對應的閾值選擇為{0, 0.5N, 0.7N},segmentation predictors和density map regressor保持相同的網路結構。Batch size=1,使用Adam優化器,初始學習率為1e-6,tp=0.9。
(3)***對比實驗:***baseline是隻使用標註資料訓練,這也是所所有半監督方法的baseline。此外,還和四種半監督方法進行對比:Learning to Rank(L2R)、Unsupervised Data Augmentation(UDA)、Mean teacher(MT)、Interpolation Consistency Training(ICT)。
下面三個表分別為在三個資料集上的對比結果。
在這裡插入圖片描述
在這裡插入圖片描述
圖4為在UCF-QNRF資料集上的視覺化對比
在這裡插入圖片描述
消融實驗:
Varying the Number of Labeled Images
在這裡插入圖片描述
該實驗中,橫軸為標記圖片的數量,從120增加到480,固定未標記圖片數量為481,虛線為使用981張標註樣本全監督的結果,可以發現,隨著標註資料增加,本文方法的效果也越來越好,均優於baseline,說明了本文方法的魯棒性,當標註樣本達到50%時,本文方法效能接近全監督方法。
IRAST on Labeled set為了證明效能的提升來自半監督學習而不是多工學習,本文還使用標記資料訓練了整個IRAST,可以看出比Label-only效能有了一定的提神,但是和IRAST的提升相比還是有一定的差距,說明多工學習是有一定作用的,但是效能的提升更多來自於對於未標記資料的使用。
在這裡插入圖片描述
Other Alternative Surrogate Task作者選擇其他的輔助任務,即多類分割預測MSST進行了實驗,結果如下表所示:
在這裡插入圖片描述
作者提出,MSST的效果不如IRAST是因為其在生成偽標籤的時候沒有錯誤糾正機制,而本文方法使用多個二分割任務之間的內在聯絡在生成偽標籤時使用了錯誤糾正機制。
The Importance of Considering the Inter-Relationship:該實驗證明了利用多個輔助任務之間的內在關係生成偽標籤的重要性。
在這裡插入圖片描述
The Impact of Changing the Prediction Confidence Threshold:改變置信度的閾值tp進行實驗,可以發現不同的tp對最終實驗結果的影響不大,也能說明本文方法的魯棒性。
在這裡插入圖片描述
Change of the Feature Extractor:將特徵提取器分別設定為CSRNet和SPN進行實驗,結果如下表所示,當特徵提取器換為SPN後,整體效能有了很大的提升,可以說明人群計數的好的網路體系結構可以很好地應用於本文方法中。
在這裡插入圖片描述
The Effect of Varying the Number of Surrogates Tasks:探索輔助任務數量對於實驗結果的影響。
在這裡插入圖片描述