1. 程式人生 > >論文筆記 | Concept Mask:Large-scale Segmentation from semantic concepts

論文筆記 | Concept Mask:Large-scale Segmentation from semantic concepts

文章主要實現了以下任務:
給定一個概念和一張圖片,模型在影象上生產對應區域的mask。

文章主要實現思路:

  1. 建立影象特徵與word vector之間的對映關係,從而得到attention map
    具體方式是:
  • 利用PMI生產word vector
  • 基礎網路(如resnet50)提取影象特徵之後進過GAP,然後經過三層 embeding 網路,使embeding結果與word vector距離儘量接近
  • 去掉GAP,得到feature map,feature map與word vector求內積,表徵對該word的響應圖(attention map)
  • 一幅圖對應多個影象時,求多個word vector的加權平均,權重利用idf求得
  1. attention map不夠精細,所以利用帶有bbox的資料進行refine
  2. 將影象與之前得到的attention map作為輸入,訓練一個二分類mask 分割模型