1. 程式人生 > >最近幾年的衣物檢索的網路架構發展歷史

最近幾年的衣物檢索的網路架構發展歷史

重要的相關論文及時間

1.       DDAN:DeepDomain Adaptation for Describing People Based on Fine-Grained ClothingAttributes

2.       DARN:Cross-domainImage Retrieval with a Dual Attribute-aware Ranking Network

3.       FashionNet:DeepFashion: Powering Robust Clothes Recognition and Retrieval withRich Annotations

4.       MTCT:Multi-TaskCurriculum Transfer Deep Learning of Clothing Attributes

5.       VAM:ClothingRetrieval with Visual Attention Model

發展歷程圖-short history

要解決的問題的總結:

資料集

標註中是否有landmark,對細粒度特徵的位置由指示意義的標記

Online/offline clothing跨域資料集的處理——a)背景差異大;b)標註資訊不同

網路結構:

1.       多工處理的手段

2.       目標檢測的手段

3.       跨域的特徵差異處理方法

評價:

DDAN和DARN

  • 它們都是IBM和National University of Singapore聯合釋出的論文,使用的相同的資料集,也是要解決相同的問題,但是使用了不同的網路架構。
  • 這兩個網路都是要著重處理跨域的資料差異問題,DDAN是兩個分支,分支中的特徵層進行差異比較,使用的是自定義alignment cost loss;DARN也是兩分支,著重是看重最後所得的特徵集的差異,使用triplet loss,相比於DDAN,它使用了image pair,同衣服的不同域的圖片。
  • 多工處理是多類別分類的方式。
  • 在這些網路頭上,需要新增衣物檢索的網路,如RCNN。
  • 這兩篇基礎網路的一個共同點是使用NIN的CONV,圖片尺寸下降不太大

FashionNet

  • 使用landmark對多工分類進行指示,是不用新增額外的衣物檢索的網路。
  • 也使用了triplet loss,處理image pairs,但不是雙網路結構,而是單支線,pairs放入到batch組合起來計算tripletloss,實現對跨域的處理能力。
  • 類別屬性使用交叉熵計算loss

MTCT

  • 需要使用faster-rcnn來首先檢索到人體或者衣物,然後將這部分裁剪出來送入到MTCT中去。
  • 細粒度的屬性是通過多分支,分別構建各分支的FC,然後使用softmax。這一點是作者驕傲的,他認為如DDAN和DARN的結構先有總的FC特徵向量,然後再分分支,既計算量大,又會丟失表達空間。
  • 雙域的處理是通過將基礎網路複製為三份,分別對最後一層conv後的feature map計算tripletloss——t-STE(e t-distributionStochastic Triplet Embedding (t-STE) loss function)。實際操作和Fashion net一致。

VAM

  • 不使用檢索網路,是通過內嵌的FCN自動的識別想要的區域,attention機制。
  • 這篇的目的是street2shop,用街拍衣服query電商,所以最後只給一個FC特徵向量。但是loss也是使用tripletloss。
  • 對於跨域的分析,也是使用正像對(positive pairs given by the dataset benchmark),然後隨機選擇負樣本圖片(negative samples)。

對網路設計的總結

  • 跨域能力的訓練,“像對”和“triplet“似乎就是標配了,至少說明這個控制精度方面表現很好,並且可以主動的設定lossmargin來增強區分能力。
  • 多屬性分類,由網路最終生成的FC特徵向量,用於多工分類。其實這部分認為可控性比較差,只能寄希望於通過多FC堆疊提高分支網路的表達能力。
  • 檢索,無論是內嵌,還是單獨列為一個階段,總是不可避免的。