Dual Adversarial Networks for Zero-shot Cross-media Retrieval 閱讀筆記
Dual Adversarial Networks for Zero-shot Cross-media Retrieval (DANZCR):由兩個GAN組成,分別用於共同表示生成與原始表示重建,它們捕獲底層資料結構,並加強輸入資料和語義空間之間的關係,以概括已見和未見類別。DANZCR通過對抗學習方法,利用詞嵌入來學習語義空間的共同表示。該方法保留了固有的跨媒體相關性,並提高了知識遷移到新類別的能力。
introduction
採用詞嵌入作為語義空間,通過對抗性學習框架將不同媒體型別的資料轉換到語義空間。具體地,該方法在雙重結構中建立GAN,其中前向GAN從輸入影象和文字中學習以在語義空間中生成共同表示;反向GAN使用生成的公共表示來重建輸入影象和文字以保留原始資料結構。DANZCR方法同時執行零樣本學習和相關學習,可以生成共同表示來進行零樣本跨媒體檢索。
主要貢獻:
- 提出對偶GANs結構,用於零樣本跨媒體檢索。兩個GAN協作相互促進,捕獲底層資料結構,並加強輸入資料和語義空間之間的關係,以概括已知和未知的類別。
- 針對零樣本跨媒體檢索提出了一種對抗性訓練方法,該方法通過從媒體型別和類別中區分生成的共同表達 學習共同表達,以保留固有的跨媒體相關性。利用詞嵌入來生成共同表示,通過對抗性訓練,建模語義資訊,從而增強知識向未知類別轉移的能力。
related work
- 跨媒體檢索。。。
- 零樣本學習。。。
- GAN:受影象翻譯工作的啟發,將零樣本跨媒體檢索視為輸入空間和語義空間之間的域變換問題。將GAN用作每種媒體型別的雙重結構的基本模組,並在多路徑網路中為跨媒體資料生成通用語義表示。
approach
問題定義:
資料集:,
其中::未知類資料集,:未知類查詢集,:已知類資料集,:已知類查詢集。
,第n個例項的影象,文字,相關類別標籤。
用訓練,對於零樣本檢索用測試,對於傳統場景用測試。
Architecture of DANZCR:
對每一個媒體型別,首先生成 original representation ,然後前向GAN從original representation生成 common representation,反向GAN將common representation轉變為original representation,這是一個對偶的過程。
每個GAN都由一個生成模型和一個判別模型組成,詳細的網路結構如下
1)前向GAN:類別詞嵌入作為監督資訊,生成語義共同表達,以建模不同媒體型別和不同類別的相關性。
,:影象的前向生成模型,判別模型;
,:文字的前向生成模型,判別模型。
- 前向生成模型:用一些全連線層,從原始表達中生成共同表達。影象例項:,影象的原始表達:,共同表達:;文字:,,;所以有:,(影象、文字原始表達經過前向生成模型變為影象、文字的共同表達)
- 前向判別模型:一些全連線層,判別生成的共同表達屬於哪一個媒體型別和類別。將原始表達和共同表達的連線作為輸入,輸出是單個值,用於預測生成的公共表示是否真實,以及判別公共表示和資料表示之間的語義相關性。()試圖判別相關類別的詞嵌入是真實的資料,生成的共同表達、以及不相關類別的詞嵌入是假的。
(2)反向GAN:用來重構輸入資料的原始表達,這使得公共表示保留資料原始結構,並且增強輸入資料和語義空間之間的關係。
, , ,
- 反向生成模型:一些全連線層,學習common representation,以重構輸入資料的原始表示(reconstruction representations )。reconstruction representation:, ,所以.(先由正向生成模型生成common representation ,再由反向生成模型生成reconstruction representation )
- 反向判別模型::一些全連線層。輸入資料表示,輸出單個值來預測資料表示是否真實。()試圖判別影象原始表示是真實的,reconstruction representation 是假的。
由於只有少量已知類別的資料,為了進一步加強相關學習,提出了一種基於L2範數的恢復目標函式:
DANZCR方法的全部目標函式是:
優化過程:
(1)生成共同表達:提取影象/文字原始表示,前向生成模型生成共同表達。
(2)前向判別模型的優化:對影象和文字分別採用上升隨機梯度對前向判別模型進行訓練。
(3)表示重構:反向生成模型從共同表達生成重構表示(reconstruction representation)。
(4)反向判別模型的優化:通過定義隨機梯度方程。
(5)前向生成模型的優化
(6)前向和反向生成模型的優化