閱讀筆記 Modality-specific and shared generative adversarial network for cross-modal retrieval
阿新 • • 發佈:2020-10-14
這一篇論文講的是使用多模態來進行圖片的檢索, 通過文字檢索出最好的圖片,模型結構如下:
文章提出兩個特徵概念
- modality-specific 模態獨立特徵
- modality-shared 模態分享特徵,也可以理解為共同特徵
文章採用對抗訓練框架, 在生成模型處:
使用3個loss 進行訓練:
- semantic discrimination loss 用於保證語義的區分能力 ,要求模型提取的特徵,對於類別的區分度高。要求模型提取的special特徵和shared特徵(文中是把兩個提取的特徵拼接成一個特徵向量來進行預測),都能夠有效的去辨別樣本的類別。
- contrastive loss 對於相同類別的兩個不同的樣本,要求模型提取對兩個樣本提取出來的spceial特徵相近(包括兩個模態), 模型提取出的兩個樣本的shared特徵
- large margin loss 保證模態獨立特徵和模態分享特徵之間的差別度
在區分模型處
- 判斷給定樣本的modality-shared特徵, 來判斷資訊的模態是什麼
這樣可以 減少 提取的modality-shared特徵的模態區別。也就是說對於每一個提取出來的共享特徵,他對於模態之間的結果是變化不大的,無論他是從畫面還是從文字提取出來的特徵,它的共享特徵是類似的,所以它的結果是相同的。