1. 程式人生 > 實用技巧 >閱讀筆記 Modality-specific and shared generative adversarial network for cross-modal retrieval

閱讀筆記 Modality-specific and shared generative adversarial network for cross-modal retrieval

這一篇論文講的是使用多模態來進行圖片的檢索, 通過文字檢索出最好的圖片,模型結構如下:
在這裡插入圖片描述

文章提出兩個特徵概念

  • modality-specific 模態獨立特徵
  • modality-shared 模態分享特徵,也可以理解為共同特徵

文章採用對抗訓練框架, 在生成模型處

使用3個loss 進行訓練:

  • semantic discrimination loss 用於保證語義的區分能力 ,要求模型提取的特徵,對於類別的區分度高。要求模型提取的special特徵和shared特徵(文中是把兩個提取的特徵拼接成一個特徵向量來進行預測),都能夠有效的去辨別樣本的類別。
  • contrastive loss 對於相同類別的兩個不同的樣本,要求模型提取對兩個樣本提取出來的spceial特徵相近(包括兩個模態), 模型提取出的兩個樣本的shared特徵
  • large margin loss 保證模態獨立特徵和模態分享特徵之間的差別度

在區分模型處

  • 判斷給定樣本的modality-shared特徵, 來判斷資訊的模態是什麼

這樣可以 減少 提取的modality-shared特徵的模態區別。也就是說對於每一個提取出來的共享特徵,他對於模態之間的結果是變化不大的,無論他是從畫面還是從文字提取出來的特徵,它的共享特徵是類似的,所以它的結果是相同的。