最近幾年的衣物檢索的網路架構發展歷史
阿新 • • 發佈:2019-02-05
重要的相關論文及時間
1. DDAN:DeepDomain Adaptation for Describing People Based on Fine-Grained ClothingAttributes
2. DARN:Cross-domainImage Retrieval with a Dual Attribute-aware Ranking Network
3. FashionNet:DeepFashion: Powering Robust Clothes Recognition and Retrieval withRich Annotations
4. MTCT:Multi-TaskCurriculum Transfer Deep Learning of Clothing Attributes
5. VAM:ClothingRetrieval with Visual Attention Model
發展歷程圖-short history
要解決的問題的總結:
資料集
標註中是否有landmark,對細粒度特徵的位置由指示意義的標記
Online/offline clothing跨域資料集的處理——a)背景差異大;b)標註資訊不同
網路結構:
1. 多工處理的手段
2. 目標檢測的手段
3. 跨域的特徵差異處理方法
評價:
DDAN和DARN
- 它們都是IBM和National University of Singapore聯合釋出的論文,使用的相同的資料集,也是要解決相同的問題,但是使用了不同的網路架構。
- 這兩個網路都是要著重處理跨域的資料差異問題,DDAN是兩個分支,分支中的特徵層進行差異比較,使用的是自定義alignment cost loss;DARN也是兩分支,著重是看重最後所得的特徵集的差異,使用triplet loss,相比於DDAN,它使用了image pair,同衣服的不同域的圖片。
- 多工處理是多類別分類的方式。
- 在這些網路頭上,需要新增衣物檢索的網路,如RCNN。
- 這兩篇基礎網路的一個共同點是使用NIN的CONV,圖片尺寸下降不太大
FashionNet
- 使用landmark對多工分類進行指示,是不用新增額外的衣物檢索的網路。
- 也使用了triplet loss,處理image pairs,但不是雙網路結構,而是單支線,pairs放入到batch組合起來計算tripletloss,實現對跨域的處理能力。
- 類別屬性使用交叉熵計算loss
MTCT
- 需要使用faster-rcnn來首先檢索到人體或者衣物,然後將這部分裁剪出來送入到MTCT中去。
- 細粒度的屬性是通過多分支,分別構建各分支的FC,然後使用softmax。這一點是作者驕傲的,他認為如DDAN和DARN的結構先有總的FC特徵向量,然後再分分支,既計算量大,又會丟失表達空間。
- 雙域的處理是通過將基礎網路複製為三份,分別對最後一層conv後的feature map計算tripletloss——t-STE(e t-distributionStochastic Triplet Embedding (t-STE) loss function)。實際操作和Fashion net一致。
VAM
- 不使用檢索網路,是通過內嵌的FCN自動的識別想要的區域,attention機制。
- 這篇的目的是street2shop,用街拍衣服query電商,所以最後只給一個FC特徵向量。但是loss也是使用tripletloss。
- 對於跨域的分析,也是使用正像對(positive pairs given by the dataset benchmark),然後隨機選擇負樣本圖片(negative samples)。
對網路設計的總結
- 跨域能力的訓練,“像對”和“triplet“似乎就是標配了,至少說明這個控制精度方面表現很好,並且可以主動的設定lossmargin來增強區分能力。
- 多屬性分類,由網路最終生成的FC特徵向量,用於多工分類。其實這部分認為可控性比較差,只能寄希望於通過多FC堆疊提高分支網路的表達能力。
- 檢索,無論是內嵌,還是單獨列為一個階段,總是不可避免的。