Tell Me Where to Look: Guided Attention Inference Network論文閱讀
背景:
摘要:對於只有粗糙標籤的弱監督學習,可以通過反向傳播梯度的辦法,獲得深層神經網路的視覺解釋,如通過獲得注意力圖的方式。注意力圖可用作物件本地化和語義分割等任務的先驅。本文解決三個問題:首次使注意圖成為端到端訓練的一個明確且自然的組成部分;直接在這些注意圖上提供自我指導,通過探索網路本身的監督來改進它們;無縫地彌合使用弱監督和額外監督(如果有的話)之間的差距。語義分割任務的實驗證明了方法的有效性。另外,提出的框架不僅可以用於網路的視覺解釋,還可以給出反饋,直接指導特定任務。在溫和假設下,我們的方法也可以理解為現有弱監督學習者的外掛,以提高其泛化效能。
介紹:
弱監督學習近來備受關注,成為解決計算機視覺中“標記資料稀缺問題“的流行解決方案。例如,僅使用影象級別標籤,在卷積神經網路(CNN)上使用反向傳播的辦法,便可以獲得給定輸入的注意圖。這些注意圖能夠給出在不同模式和任務下,網路的響應機制。注意圖上每個畫素的值揭示了輸入影象上相同畫素對網路最終輸出的貢獻程度。已經表明,可以從這些注意圖中提取本地化和分割資訊,而無需額外的標記工作。
現有獲得注意力圖的辦法有缺陷:僅受分類損失的監督,關注地圖通常只覆蓋感興趣物件的小型和最具區分性的區域。雖然這些注意圖仍然可以作為分割等任務的可靠先驗,但是獲得”儘可能完整地包含覆蓋目標前景物件“的注意圖,可以進一步提升效能(本文的目標)。為此,最近的一些作品要麼依靠通過迭代擦除步驟[31]或者從多個網絡合並注意力圖來合併來自網路的多個注意圖[11]。 我們設想了一種端到端的框架,可以在訓練階段直接將任務特定的監督應用於注意力圖上,而不是被動地利用受過訓練的網路注意力。如下圖:
作為解釋網路決策的有效方式,注意圖可以幫助找到訓練網路的限制。例如,(要識別船,但網路的注意力在水上而不是船本身)