Learning Attribute Representations with Localization for Flexible Fashion Search
整體結構
FSN的整體結構:前面是AlexNet的結構,將AlexNetd的兩個全連線層換為卷積層conv6,conv7,並進行GAP操作,最後接入A個全連線層進行attribute的分類。使用attribute cls的loss進行訓練,使得網路能夠利用AAM產生不需要監督資訊的ROI,使用ROI提取對應的conv5輸出的特徵圖,並送入相應的全連線層組成的分支,共有A個,對應A個可能的attribute。最後A個分支生成的A*1024維度的輸出通過最後一個全連線層進行組合。
AAM:Attribute activation map:
對於特徵圖做GAP的公式為:即對第k個特徵圖在所有元素上求和,如果共有K個特徵圖則生成了K維的向量,將K個向量送入A個全連線層用於attribute的分類預測,有其中是第a個attribute的Ground truth,是全連線層輸出的結果,由此可以定義屬性對應的特徵啟用圖:其中是與屬性a對應的全連線層的權重,維度為k,即對每個屬性a中的類別都可以生成對應的特徵啟用圖。在特徵啟用圖中畫素值高於最大值20%的被分割出來並用於bbox。
Ranking with triplet of regions
作者用上面的圖展示了ROI的好處:在領子的屬性上Anchor更接近於pos,但如果直接將整張圖片送入網路,由於顏色的相似,很有可能會認為neg更接近於anchor,加入ROI後,去掉了不相關的袖子等,會使得網路能夠更好的分辨不同的領口特徵。 作者採用了改進後的Triplet loss,使用的是與softmax相似的思路:
Attribute manipulation
有了如上的結構,進行attribute manipulation就非常直接了:在訓練過程中將有相同attribute value的圖片提取特徵並取平均,在進行am的時候直接將不需要的特徵進行替換(與AMNet的思路相同)
Learning Global representation
經過後可以得到對應每個屬性的1024D特徵,為了減少最終輸出的尺度,使用F進行壓縮由此得到全域性的ranking loss:其中與的關係是在經過的操作後有相同的attribute。
FashionSearchNet with region awareness
作者提出了局部屬性的變更,即對於某個特定的屬性,可以定義其所屬的特定區域,然後對區域的顏色等屬性進行變更。
result